240 发简信
IP属地:广东
  • Resize,w 360,h 240
    spark的groupByKey和combineByKey算子的使用情况对比

    groupByKey和combineByKey算子底层都是调用了combineByKeyWithClassTag方法,区别在于各自方法的传入的参...

  • Resize,w 360,h 240
    spark的join操作

    当我们在操作表进行join时,如何尽可能的避免shuffle过程? (1)设置分数函数和分数数一样 两个RDD进行join操作前,对其分别执行了...

  • Resize,w 360,h 240
    创建快照过程中报异常:SnapshotCreationException

    业务中需要以读取快照的方式读取hbase表,刚开始会重新创建快照,但是遭遇了以下的异常: 首次见到该异常,不知其意,只能翻看源码,找到Snaps...

  • spark算子1:repartitionAndSortWithinPartitions

    repartitionAndSortWithinPartitions算是一个高效的算子,是因为它要比使用repartition And sort...

  • [源码分析]spark shuffle的读操作

    上一篇解读了shuffle写操作的流程,相比较shuffle读操作而言是比较简单的;shuffle读取过程比较耗内存,由于在最后会把所有的数据拉...

  • Resize,w 360,h 240
    [源码分析]spark shuffle的写操作

    基于spark1.6版本的理解,简单聊一聊spark shuffle 写操作的过程,以及该过程中可以优化的地方;见解粗略,往提出意见spark1...