背景 spark streaming 任务执行过程中,driver总是不明原因挂掉,没有任何错误日志。 原因 出现此种情况基本上都是以下几种原因...
背景 spark streaming 任务,任务持续运行会产生大量的日志,查看起来非常麻烦,而且非常浪费时间。 方案 主要针对log4j.pro...
源码阅读(数据写入) 源码阅读(数据清理) 关于大数据方面技术问题可以咨询,替你解决你的苦恼。参考WX:hainanzhongjian
jvm内存模型 堆内存on-heap: 堆外内存(非堆)(off-heap),默认为堆*0.1直接内存:jvm外内存(native内存)Dire...
表类型 写时复制(Copy On Write):仅使用列式文件格式(parquet,基本文件)存储数据。通过在写入过程中执行同步合并,仅更新版本...
查询 Hudi 数据集 从概念上讲,Hudi物理存储一次数据到DFS上,同时在其上提供三种查询类型,如之前所述。 数据集同步到Hive Meta...
背景 spark向集群1中的yarn提交任务,任务运行在集群1的yarn容器中。数据写入集群2的hdfs。集群1与集群2开通kerberos互信...
背景 使用idea调试spark + hive sql 程序时候,经常会碰到这个问题,比较难以解决。顾此处我总结了一下常见的解决方案。 异常 代...
背景 目前flink读写hive表一直是一个比较麻烦的事情。虽然flink1.10版本更新了hive table api,生产环境中可以使用。但...