Avatar notebook default
10篇文章 · 18930字 · 7人关注
  • Resize,w 360,h 240
    Spark任务提交过程

    1. 前言 本文主要讲述一下我对spark任务调度过程的理解,必要的地方会配合源码。 2 . Spark任务调度 2.1 基本概念 Job用户提...

  • spark如何只在map端做完成reduce的工作

    1. 前言 有时候需要按照key去做reduce操作时,一般情况下调用reduceByKey就可以完成按照key reduce的任务,redu...

  • Spark Sql 之 cacheTable

    1. 前言 spark sql中使用DataFrame/DataSet来抽象表示结构化数据(关系数据库中的table),DataSet上支持和R...

  • Resize,w 360,h 240
    Spark内存管理

    1. 存储总体结构 Spark存储结构分为两层:内存存储和磁盘存储,其中内存主要用作缓存以及任务计算时期数据存储,磁盘用在内存存储不足时使用。E...

  • Resize,w 360,h 240
    spark之transform和action

    1. tranformation mapmap实现如下: map接收一个函数f为参数,该函数接收参数类型T,然后返回类型U。当前RDD数据类型T...

  • Spark源码阅读 (一) - Spark 初始化

    1. 从word count程序开始 代码如下: 1.1 创建SparkConf SparkConf持有spark的运行时的配置信息,不给Spa...

  • Resize,w 360,h 240
    Spark job提交过程

    本文基于spark2.11 1. 前言 1.1 基本概念 RDD关于RDD已经有很多文章了,可以参考一下理解Spark的核心RDD 依赖依赖分为...

  • Resize,w 360,h 240
    Spark数据传输

    本文基于spark 2.11 1. 前言 在spark shuffle write 和read一文中3.1.1 节创建ShuffleBlockF...

  • Resize,w 360,h 240
    Spark Shuffle Write 和Read

    本文基于spark源码2.11 1. 前言 shuffle是spark job中一个重要的阶段,发生在map和reduce之间,涉及到map到r...

文集作者