记录一下个人对sparkSql的catalyst这个函数式的可扩展的查询优化器的理解,目录如下, Overview Spark SQL的核心是C...

记录一下个人对sparkSql的catalyst这个函数式的可扩展的查询优化器的理解,目录如下, Overview Spark SQL的核心是C...
一.NettyRpcEnv主要组件 子组件TransportConf,Dispatcher,TransportClientFactory,Tra...
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shu...
一.概述 Spark数据本地化即计算向数据移动,但数据块所在的Executor不一定有足够的的计算资源提供,为了让task能尽可能的以最优本地化...
一.整体架构 Spark的存储介质包括磁盘和内存。 Spark的存储采用了主从模型,存储模块使用了基于Netty的RPC消息通信方式。Block...
Spark有多种储级别,下面我用数据的方式展示各种存储级别的区别和其选择,希望能给在座各位在工作中或面试中一点帮助!转载请注明出处:Michae...
一.前言 Spark的作业和任务调度系统是其核心。Spark的作业调度主要是基于RDD的一系列操作构成一个作业,然后在Executor上执行,这...
准备 本文主要对SparkSubmit的任务提交流程源码进行分析。Spark源码版本为2.3.1。 首先阅读一下启动脚本,看看首先加载的是哪个类...
一.前言 在用户提交应用程序时,SparkContext会向Master发送注册消息,并由Master给该应用分配Executor。 这里的Sp...
准备 本文主要对Master的启动流程源码进行分析。Spark源码版本为2.3.1。 阅读源码首先从启动脚本入手,看看首先加载的是哪个类,我们看...