240 发简信
IP属地:广东
  • Resize,w 360,h 240
    Spark Stage如何划分

    本文基于2.3.0众所周知,RDD的依赖关系形成后,我们就可以根据宽依赖划分Stage了。目前Spark 的 stage分为两种: org.ap...

  • SparkSQL RDD的依赖是如何建立的

    RDD的依赖指的就是spark中的org.apache.spark.Dependency,Dependency有两个子类,NarrowDepen...

  • Hive源码概读-HQL任务提交Yarn

    基于hive2.3.4, 这里以CLI方式提交Sql为例 : 启动Driver沿着调用:org.apache.hadoop.hive.cli.C...

  • presto 跨数据源查询

    配置好不同数据源:解压安装目录 /xxx/etc/catalog 下配置好不同数据源对应的.properties配置文件[admin@slave...

  • Superset 配置 Presto

    在 SQL Lab里面就可以愉快的使用Presto了

  • Presto on MongoDB 随记

    Presto读取确字段问题 由于Mongo是NoSql数据库,其文档存储并没有关系型数据库的固定shema, 所以官网文档建议配置mongodb...

  • 自定义flume拦截器

    需求:日志目录是 /data/logs/{instanceId}/xxx.log, 保证倒数第二级为 实例ID。flume 为 taildir-...

  • Java对类魔法加工的一些技术

    运行时注解在运行时拿到类的Class对象,反射机制利用之 编译时注解生成的Java代码是在生成的.java文件中,所以你不能修改已经存在的Jav...

  • Spark 应用程序提交启动之Yarn-Cluster模式

    Spark 应用程序提交启动之主线流程一文中已经分析完大致流程. 下面具体分析一下Yarn-Cluster模式。 寻找对应的childMainC...