240 发简信
IP属地:北京
  • 120
    Spark Shuffle 模块③ - Sort Based Shuffle write

    Spark Shuffle 模块③ - Sort Based Shuffle write 本文为 Spark 2.0 源码剖析,其他版本可能有所不同 自 Spark 1.2 ...

  • 120
    Spark Shuffle的技术演进

    Spark Shuffle的两阶段 对于Spark来讲,一些Transformation或Action算子会让RDD产生宽依赖,即parent RDD中的每个Partitio...

  • 老师,ForEachDStream会覆盖父类DStream的generateJob方法,所以在DstreamGraph#generateJobs中是不是该调用覆盖后的方法?

    揭开Spark Streaming神秘面纱③ - 动态生成 job

    JobScheduler有两个重要成员,一是上文介绍的 ReceiverTracker,负责分发 receivers 及源源不断地接收数据;二是本文将要介绍的 JobGene...

  • 120
    [Spark源码剖析] DAGScheduler划分stage

    划分stage源码剖析 本文基于Spark 1.3.1 先上一些stage相关的知识点: DAGScheduler将Job分解成具有前后依赖关系的多个stage DAGSch...