糖哗啦 - 简书

糖哗啦

IP属地：河北

spark的groupByKey和combineByKey算子的使用情况对比
groupByKey和combineByKey算子底层都是调用了combineByKeyWithClassTag方法，区别在于各自方法的传入的参...

1027 2 0
spark的join操作
当我们在操作表进行join时，如何尽可能的避免shuffle过程？（1）设置分数函数和分数数一样两个RDD进行join操作前，对其分别执行了...

2028 0 0

创建快照过程中报异常:SnapshotCreationException
业务中需要以读取快照的方式读取hbase表，刚开始会重新创建快照，但是遭遇了以下的异常：首次见到该异常，不知其意，只能翻看源码，找到Snaps...

1434 0 0
spark算子1：repartitionAndSortWithinPartitions
repartitionAndSortWithinPartitions算是一个高效的算子，是因为它要比使用repartition And sort...

0.3 5974 4 6
[源码分析]spark shuffle的读操作
上一篇解读了shuffle写操作的流程，相比较shuffle读操作而言是比较简单的；shuffle读取过程比较耗内存，由于在最后会把所有的数据拉...

0.1 1441 0 1
发现生活

250 2 0
[源码分析]spark shuffle的写操作
基于spark1.6版本的理解，简单聊一聊spark shuffle 写操作的过程，以及该过程中可以优化的地方；见解粗略，往提出意见spark1...

0.1 882 0 1