240 发简信
IP属地:香港
  • 方法论:Spark Streaming Driver不明原因挂掉

    背景 spark streaming 任务执行过程中,driver总是不明原因挂掉,没有任何错误日志。 原因 出现此种情况基本上都是以下几种原因...

  • Spark Streaming 日志拆分

    背景 spark streaming 任务,任务持续运行会产生大量的日志,查看起来非常麻烦,而且非常浪费时间。 方案 主要针对log4j.pro...

  • Hudi 0.6.0 源码阅读(数据写入)

    源码阅读(数据写入) 源码阅读(数据清理) 关于大数据方面技术问题可以咨询,替你解决你的苦恼。参考WX:hainanzhongjian

  • Spark 内存模型

    jvm内存模型 堆内存on-heap: 堆外内存(非堆)(off-heap),默认为堆*0.1直接内存:jvm外内存(native内存)Dire...

  • Hudi 0.5.2 Hudi 写时复制 读时合并表区别联系

    表类型 写时复制(Copy On Write):仅使用列式文件格式(parquet,基本文件)存储数据。通过在写入过程中执行同步合并,仅更新版本...

  • Hudi 0.5.2 查询数据(Querying Data)

    查询 Hudi 数据集 从概念上讲,Hudi物理存储一次数据到DFS上,同时在其上提供三种查询类型,如之前所述。 数据集同步到Hive Meta...

  • Spark提交任务,两个集群kerberos互信

    背景 spark向集群1中的yarn提交任务,任务运行在集群1的yarn容器中。数据写入集群2的hdfs。集群1与集群2开通kerberos互信...

  • UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Lja...

    背景 使用idea调试spark + hive sql 程序时候,经常会碰到这个问题,比较难以解决。顾此处我总结了一下常见的解决方案。 异常 代...

  • Flink 读写 Hive 表

    背景 目前flink读写hive表一直是一个比较麻烦的事情。虽然flink1.10版本更新了hive table api,生产环境中可以使用。但...