spark源码阅读 - 文集

spark源码阅读

10篇文章 · 18930字 · 7人关注

Spark任务提交过程
1. 前言本文主要讲述一下我对spark任务调度过程的理解，必要的地方会配合源码。 2 . Spark任务调度 2.1 基本概念 Job用户提...

5431 0 1
spark如何只在map端做完成reduce的工作
1. 前言有时候需要按照key去做reduce操作时，一般情况下调用reduceByKey就可以完成按照key reduce的任务，redu...

4155 0 1

Spark Sql 之 cacheTable
1. 前言 spark sql中使用DataFrame/DataSet来抽象表示结构化数据（关系数据库中的table），DataSet上支持和R...

14263 0 0
Spark内存管理
1. 存储总体结构 Spark存储结构分为两层：内存存储和磁盘存储，其中内存主要用作缓存以及任务计算时期数据存储，磁盘用在内存存储不足时使用。E...

4427 0 1
spark之transform和action
1. tranformation mapmap实现如下: map接收一个函数f为参数，该函数接收参数类型T，然后返回类型U。当前RDD数据类型T...

0.1 10691 0 2
Spark源码阅读 (一) - Spark 初始化
1. 从word count程序开始代码如下： 1.1 创建SparkConf SparkConf持有spark的运行时的配置信息，不给Spa...

3247 0 0
Spark job提交过程
本文基于spark2.11 1. 前言 1.1 基本概念 RDD关于RDD已经有很多文章了，可以参考一下理解Spark的核心RDD 依赖依赖分为...

5781 0 3

Spark数据传输
本文基于spark 2.11 1. 前言在spark shuffle write 和read一文中3.1.1 节创建ShuffleBlockF...

7278 0 0
Spark Shuffle Write 和Read
本文基于spark源码2.11 1. 前言 shuffle是spark job中一个重要的阶段，发生在map和reduce之间，涉及到map到r...

0.9 14073 1 12