樱桃还是馒头

IP属地：江苏

Hive中4个By的区别以及如何调优？你知道么？
1、Sort By:分区内有序 2、Order By:全局排序，只有一个Reducer 3、Distrbute By：类似MR中的Partiti...

2311 0 0
数据仓库--Hive
数据仓库：数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持，数据仓库是存数据的，主要是为了分析有效数据，后续会基于它产出供分析挖...

702 0 0

MapPartition和Map的区别
MapPartition和Map的区别在Spark和Flink中有map和mapPartitions算子，处理数据上，有一些区别主要区别： ...

2098 0 1
初识Flink
Flink是什么 Apache Flink is a framework and distributed processing engine f...

501 0 0
Yarn架构以及执行流程
Yarn架构 Client、ResourceManager、NodeManager、ApplicationMaster Client：向RM提交...

322 0 0
TCP拆包和粘包问题
TCP底层的粘包/拆包机制其实很多熟悉TCP编程的小伙伴们都知道，无论是客户端还是服务端，当我们读取或者发送数据的时候，都需要去考虑TCP粘包...

314 0 0
Kafka的三种语义
1、至少一次：at-least-once 表示的是关闭offset自动提交功能，消费端在消费数据的时候很可能在commitAync之前，已经保存...

1622 0 0

MapReduce的执行原理
1、框架会把输入文件(夹)划分为很多InputSplit，默认每个HDFS的Block对应一个InputSplit。通过RecordReader...

376 0 1
大厂面试必问之JVM内存模型
大家都知道，JVM内存模型以及GC垃圾回收是近几年来面试问的最多的问题，下面我将逐步和大家介绍和详述，首先图片先双手奉上，让大家先有个概念！大...

617 0 0