大数据技术与数仓

发简信

大数据技术与数仓

5
关注
225
粉丝
56
文章
144437

字数
136

收获喜欢
29

总资产

IP属地：上海

大数据技术与数仓

第十篇SparkStreaming手动维护Kafka Offset的几种方式
Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器，而是创建输入流直接从Kafka 集群节点拉取消息。输入...

669 0 8
大数据技术与数仓

篇五|ClickHouse数据导入(Flink、Spark、Kafka、MySQL、Hive)
本文分享主要是ClickHouse的数据导入方式，本文主要介绍如何使用Flink、Spark、Kafka、MySQL、Hive将数据导入ClickHouse，具体内容包括： ...

1638 1 9
大数据技术与数仓

元数据管理|Hive Hooks和Metastore监听器介绍
元数据管理是数据仓库的核心，它不仅定义了数据仓库有什么，还指明了数据仓库中数据的内容和位置，刻画了数据的提取和转换规则，存储了与数据仓库主题有关的各种商业信息。本文主要介绍H...

870 0 2
大数据技术与数仓

Flink DataSet API编程指南
Flink最大的亮点是实时处理部分，Flink认为批处理是流处理的特殊情况，可以通过一套引擎处理批量和流式数据，而Flink在未来也会重点投入更多的资源到批流融合中。我在Fl...

651 0 1
大数据技术与数仓

第一篇|Spark概览
Apache Spark最初在2009年诞生于美国加州大学伯克利分校的APM实验室，并于2010年开源，如今是Apache软件基金会下的顶级开源项目之一。Spark的目标是设...

282 0 1
大数据技术与数仓

第二篇|Spark core编程指南
在《第一篇|Spark概览》一文中，对Spark的整体面貌进行了阐述。本文将深入探究Spark的核心组件--Spark core，Spark Core是Spark平台的基础通...

395 0 1
大数据技术与数仓

第三篇|Spark SQL编程指南
在《第二篇|Spark Core编程指南》一文中，对Spark的核心模块进行了讲解。本文将讨论Spark的另外一个重要模块--Spark SQL，Spark SQL是在Sha...

517 0 2
大数据技术与数仓

透过窗口看无限数据流——Flink的Window全面解析
窗口是流式计算中非常常用的算子之一，通过窗口可以将无限流切分成有限流，然后在每个窗口之上使用计算函数，可以实现非常灵活的操作。Flink提供了丰富的窗口操作，除此之外，用户还...

1409 0 4