本文基于2.3.0众所周知,RDD的依赖关系形成后,我们就可以根据宽依赖划分Stage了。目前Spark 的 stage分为两种: org.apache.spark.sche...
RDD的依赖指的就是spark中的org.apache.spark.Dependency,Dependency有两个子类,NarrowDependency 和 Shuffle...
基于hive2.3.4, 这里以CLI方式提交Sql为例 : 启动Driver沿着调用:org.apache.hadoop.hive.cli.CliDriver#main--...
配置好不同数据源:解压安装目录 /xxx/etc/catalog 下配置好不同数据源对应的.properties配置文件[admin@slave1 catalog]# llt...
在 SQL Lab里面就可以愉快的使用Presto了
Presto读取确字段问题 由于Mongo是NoSql数据库,其文档存储并没有关系型数据库的固定shema, 所以官网文档建议配置mongodb.schema-collect...
需求:日志目录是 /data/logs/{instanceId}/xxx.log, 保证倒数第二级为 实例ID。flume 为 taildir-source,要求事件按不同i...
运行时注解在运行时拿到类的Class对象,反射机制利用之 编译时注解生成的Java代码是在生成的.java文件中,所以你不能修改已经存在的Java类,例如向已有的类中添加方法...
Spark 应用程序提交启动之主线流程一文中已经分析完大致流程. 下面具体分析一下Yarn-Cluster模式。 寻找对应的childMainClassSparkSubmit...
Spark 应用程序提交启动之主线流程 中提到org.apache.spark.deploy.SparkSubmit#prepareSubmitEnvironment 可获取...
SparkApplication是应用程序启动的万能入口,下面分析之 1.org.apache.spark.deploy.SparkSubmit#main 内调用 submi...
如果不存在则创建 批量创建 重复写即可 创建时如果存在则... 不存在则... 批量创建重复写即可 批量创建Relation 删除节点以及与之相关的所有关系
最近看《SQL内核剖析》,提到在org.apache.spark.sql.hive.client.IsolatedClientLoader中通过自定义类加载器,运用类加载机制...
hive血缘关系获取比较容易,方案也比较成熟。 org.apache.hadoop.hive.ql.tools.LineageInfo 表级别血缘 利用LineageInfo...
CoarseGrainedExecutorBackend#receive() 接收LaunchTask消息并处理 2.org.apache.spark.executor.E...