集群规划 集群架构 其中 Distribute 是指创建分布式表的机器,在此文章中是将 Distribute 单独部署的,也可以将 Distribute 角色划分到每个 Re...
集群规划 集群架构 其中 Distribute 是指创建分布式表的机器,在此文章中是将 Distribute 单独部署的,也可以将 Distribute 角色划分到每个 Re...
概述 这篇文章是但不仅仅是官方文档的中文翻译,还有里面每一个方法对应的Transformation和运行时对Task的影响。 Prerequisites 关于算子想说的有很多...
大数据挑战 多种执行、存储引擎,分钟、小时、天级的任务调度,怎样梳理数据的时间线变化? 任务、表、列、指标等数据,如何进行检索、复用、清理、热度Top计算? 怎样对表、列、指...
Job日志 mapred-site.xml配置任务执行日志路径(hdfs) 作业启动时,hadoop会将作业信息放在${yarn.app.mapreduce.am.stagi...
Broadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构 ...
SparkEnv中有两个序列化的组件,分别是SerializerManager和closureSerializer SerializerManager集成序列化、压缩、加密的...
Spark的度量系统有以下几部分,也可以参照MetricsSystem类的注释部分 Instance: 数据实例。Spark的Instance有Master、Worker、A...
Spark中很多组件都是靠RPC、事件消息机制实现通信的。前者解决远程通信问题,后者则是本地较为高效的通信方式 定义ListenerBus Spark定义了一个trait的L...
ThreadLocal的作用是提供一个线程的局部变量,比如context、session。是直接把某个对象在各自线程中实例化一份,每个线程都有属于自己的该对象。ThreadL...