大数据挑战 多种执行、存储引擎,分钟、小时、天级的任务调度,怎样梳理数据的时间线变化? 任务、表、列、指标等数据,如何进行检索、复用、清理、热度...
Job日志 mapred-site.xml配置任务执行日志路径(hdfs) 作业启动时,hadoop会将作业信息放在${yarn.app.map...
Broadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用...
SparkEnv中有两个序列化的组件,分别是SerializerManager和closureSerializer SerializerMana...
Spark的度量系统有以下几部分,也可以参照MetricsSystem类的注释部分 Instance: 数据实例。Spark的Instance有...
Spark中很多组件都是靠RPC、事件消息机制实现通信的。前者解决远程通信问题,后者则是本地较为高效的通信方式 定义ListenerBus Sp...
ThreadLocal的作用是提供一个线程的局部变量,比如context、session。是直接把某个对象在各自线程中实例化一份,每个线程都有属...
创建Optional对象 Optional.empty():声明一个空Optional Optional.of():依据一个非空值创建Optio...
这些接口都有一个@FunctionalInterface注解,表明这个接口将是一个函数式接口,里面只能有一个抽象方法 Function Func...