1、Sort By:分区内有序 2、Order By:全局排序,只有一个Reducer 3、Distrbute By:类似MR中的Partiti...
数据仓库:数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持,数据仓库是存数据的,主要是为了分析有效数据,后续会基于它产出供分析挖...
MapPartition和Map的区别 在Spark和Flink中有map和mapPartitions算子,处理数据上,有一些区别 主要区别: ...
Flink是什么 Apache Flink is a framework and distributed processing engine f...
Yarn架构 Client、ResourceManager、NodeManager、ApplicationMaster Client:向RM提交...
TCP底层的粘包/拆包机制 其实很多熟悉TCP编程的小伙伴们都知道,无论是客户端还是服务端,当我们读取或者发送数据的时候,都需要去考虑TCP粘包...
1、至少一次:at-least-once 表示的是关闭offset自动提交功能,消费端在消费数据的时候很可能在commitAync之前,已经保存...
1、框架会把输入文件(夹)划分为很多InputSplit,默认每个HDFS的Block对应一个InputSplit。通过RecordReader...
大家都知道,JVM内存模型以及GC垃圾回收是近几年来面试问的最多的问题,下面我将逐步和大家介绍和详述,首先图片先双手奉上,让大家先有个概念! 大...