240 发简信
IP属地:北京
  • Spark Streaming Backpressure Rate Control

    Spark Streaming整体流程如下图所示。图中左边部分负责流数据的接收,右边部分负责流数据的处理。对于数据处理部分,JobGenerat...

  • Spark TorrentBroadcast

    Broadcast 就是将数据从一个节点发送到其他各个节点上去。Spark有两种方式:一种是HttpBroadcast,另一种是TorrentB...

  • RDD介绍

    全称Resilient Distributed Datasets。Resilient(弹性):数据集的划分(进而决定了并行度)可变 内部接口: ...

  • Spark Tungsten Shuffle Write

    ShuffleMapTask的runTask()方法 首先得到shuffleManager,shuffleManager分为三种SortShuf...

  • Resize,w 360,h 240
    Spark Shuffle Write的演化

    目前,spark shuffle write有三种方法:hash shuffle、sort shuffle和tungsten-sort shuf...

  • Spark Sort Shuffle Write

    Spark sort shuffle write的过程大致如下: ShuffleMapTask的runTask()方法 首先得到shuffleM...

  • Spark Sort Shuffle Read

    Shuffle read 是等到Mapper stage结束后才开始读取数据。边读取数据边处理,数据先放在内存,最后落盘。下面先介绍Shuffl...

  • Spark Job 详细执行流程(二)

    Spark Job执行流程大体如下:用户提交Job后会生成SparkContext对象,SparkContext向Cluster Manager...

  • Resize,w 360,h 240
    Spark Job 详细执行流程(一)

    本文以Spark 1.6 Standalone模式为例,介绍用户提交Spark Job后的Job的执行流程。大体流程如下图所示 用户提交Job后...