1.问题背景 用户提交Spark应用到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor个数,随后,Applicatio...

1.问题背景 用户提交Spark应用到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor个数,随后,Applicatio...
背景 Apache Spark作为当前最为流行的开源大数据计算框架,广泛应用于数据处理和分析应用,它提供了两种方式来处理数据:一是交互式处理,比如用户使用spark-shel...
有时候会发现即使是读取少量的数据,启动延时可能也非常大,针对该现象进行分析,并提供一些解决思路。 背景 Spark 一次查询过程可以简单抽象为 planning 阶段和 ex...
数据本地性是 Spark 等计算引擎从计算性能方面去考量的一个重要指标,对于某个数据分片的运算,Spark 在调度侧会做数据本地性的预测,然后尽可能的将这个运算对应的Task...
本文将解读使用spark-shell的方式进入REPL的具体流程。 注:本专题的文章皆使用Spark-1.6.3版本的源码为参考,如果Spark-2.1.0版本有重大改进的地...
今天有朋友问之前NodeManager被Shuffle拉挂的问题,借此机会将之前分析的另一文档整理一下分享出来。 现象描述及分析 9月27日10时左右,编号为2611节点执行...
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的e...
1 现象描述及初步分析 近期公司yarn集群中存在NodeManager因OOM 而挂掉的情况, 且发生OOM前存在大量的Spark Shuffle Services相关信...
@jonde 初级:产品是大爷 中级:怼过产品 高级:打过产品 @PureWhiteWu 初级:加班 中级:不加班 高级:你们加班 @sunsulei 初级:嗯? 中级:嗯。...