一. 编程模型 二. 组件简介 三. 作业执行 四. 内存管理 五. 存储原理 六. shuffle 七. 性能调优 八. 知识脑图 一. 编程...
Spark UI 一级入口 Executors Executors Tab 的主要内容如下,主要包含“Summary”和“Executors”两...
1. RDD 之痛:优化空间受限 RDD 的核心痛点是优化空间有限,它指的是 RDD 高阶算子中封装的函数对于 Spark 来说完全透明,因此 ...
1. 应用开发的原则 原则一:坐享其成我们应该尽可能地充分利用 Spark 为我们提供的“性能红利”,如钨丝计划、AQE、SQL functio...
1. 弹性分布式数据集 单机思维,factDF是一个大数据集,每次foreach都会调用createInstance导致这个数据集被多次扫描 R...
现象与原理 『不患多而患不均』,这是分布式环境下最大的问题。在进行 shuffle 的时候,不同的key对应的数据量不同导致不同task处理的数...
排查步骤 在日志中搜索track,点击网址到stage 按duration排序查找出时间最长的那个stage 点击logs中的stderr,查看...
目录 Spark-相关概念MapReduce和Spark对比Spark-rddSpark-shuffle分析Spark-闭包/线程安全Spark...
ERROR TransportResponseHandler:Still have 1 requests outstanding when co...
文集作者