imarch1 - 简书

imarch1

IP属地：北京

Spark Streaming Backpressure Rate Control
Spark Streaming整体流程如下图所示。图中左边部分负责流数据的接收，右边部分负责流数据的处理。对于数据处理部分，JobGenerat...

0.1 1602 0 1
Spark TorrentBroadcast
Broadcast 就是将数据从一个节点发送到其他各个节点上去。Spark有两种方式：一种是HttpBroadcast，另一种是TorrentB...

1661 0 2

RDD介绍
全称Resilient Distributed Datasets。Resilient（弹性）：数据集的划分（进而决定了并行度）可变内部接口： ...

685 0 0
Spark Tungsten Shuffle Write
ShuffleMapTask的runTask()方法首先得到shuffleManager，shuffleManager分为三种SortShuf...

514 0 1
Spark Shuffle Write的演化
目前，spark shuffle write有三种方法：hash shuffle、sort shuffle和tungsten-sort shuf...

1317 0 2
Spark Sort Shuffle Write
Spark sort shuffle write的过程大致如下： ShuffleMapTask的runTask()方法首先得到shuffleM...

464 0 1
Spark Sort Shuffle Read
Shuffle read 是等到Mapper stage结束后才开始读取数据。边读取数据边处理，数据先放在内存，最后落盘。下面先介绍Shuffl...

679 0 0

Spark Job 详细执行流程（二）
Spark Job执行流程大体如下：用户提交Job后会生成SparkContext对象，SparkContext向Cluster Manager...

0.1 3655 0 7
Spark Job 详细执行流程（一）
本文以Spark 1.6 Standalone模式为例，介绍用户提交Spark Job后的Job的执行流程。大体流程如下图所示用户提交Job后...

6589 1 2