海南中剑 - 简书

海南中剑

IP属地：安徽

方法论：Spark Streaming Driver不明原因挂掉
背景 spark streaming 任务执行过程中，driver总是不明原因挂掉，没有任何错误日志。原因出现此种情况基本上都是以下几种原因...

610 0 0
Spark Streaming 日志拆分
背景 spark streaming 任务，任务持续运行会产生大量的日志，查看起来非常麻烦，而且非常浪费时间。方案主要针对log4j.pro...

775 0 0

Hudi 0.6.0 源码阅读（数据写入）
源码阅读（数据写入）源码阅读（数据清理）关于大数据方面技术问题可以咨询，替你解决你的苦恼。参考WX：hainanzhongjian

0.1 1094 0 1
Spark 内存模型
jvm内存模型堆内存on-heap: 堆外内存（非堆）(off-heap)，默认为堆*0.1直接内存：jvm外内存（native内存）Dire...

1278 0 0
Hudi 0.5.2 Hudi 写时复制读时合并表区别联系
表类型写时复制（Copy On Write）：仅使用列式文件格式（parquet，基本文件）存储数据。通过在写入过程中执行同步合并，仅更新版本...

0.1 2839 0 1
Hudi 0.5.2 查询数据（Querying Data）
查询 Hudi 数据集从概念上讲，Hudi物理存储一次数据到DFS上，同时在其上提供三种查询类型，如之前所述。数据集同步到Hive Meta...

0.1 1622 0 1
Spark提交任务，两个集群kerberos互信
背景 spark向集群1中的yarn提交任务，任务运行在集群1的yarn容器中。数据写入集群2的hdfs。集群1与集群2开通kerberos互信...

1432 0 0

UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Lja...
背景使用idea调试spark + hive sql 程序时候，经常会碰到这个问题，比较难以解决。顾此处我总结了一下常见的解决方案。异常代...

1253 0 0
Flink 读写 Hive 表
背景目前flink读写hive表一直是一个比较麻烦的事情。虽然flink1.10版本更新了hive table api，生产环境中可以使用。但...

8418 0 0