240 发简信
IP属地:上海
  • 120
    spark-sql on yarn关于UserGroupInformation初始化最早时机

    最近调研了spark-sql on yarn时UserGroupInformation初始化最早时机,将spark-sql on yarn的整个提交流程阅读了一遍,确定了Sp...

  • 120
    spark的SparkSubmit类关于Configuration的资源文件加载

    在阅读SparkSubmit源代码时,重点关注Configuration的资源文件的加载情况,默认通过new Configuration()构造方法创建时,只会加载core-...

  • 120
    Spark详解03Job 物理执行图

    Job 物理执行图 在 Overview 里我们初步介绍了 DAG 型的物理执行图,里面包含 stages 和 tasks。这一章主要解决的问题是: 给定 job 的逻辑执行...

  • 120
    Spark详解04Shuffle 过程

    Shuffle 过程 上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 t...