背景 spark streaming 任务执行过程中,driver总是不明原因挂掉,没有任何错误日志。 原因 出现此种情况基本上都是以下几种原因引起1:内存泄漏,需要dump...
背景 spark streaming 任务执行过程中,driver总是不明原因挂掉,没有任何错误日志。 原因 出现此种情况基本上都是以下几种原因引起1:内存泄漏,需要dump...
前言 前段时间写了三个Spark Streaming程序,负责从Kafka订阅群和用户消息,并做舆情监控必须的ETL工作。它们消费的Topic各自不同,但是分配的group....
背景 spark streaming 任务,任务持续运行会产生大量的日志,查看起来非常麻烦,而且非常浪费时间。 方案 主要针对log4j.properties文件进行修改,此...
源码阅读(数据写入) 源码阅读(数据清理) 关于大数据方面技术问题可以咨询,替你解决你的苦恼。参考WX:hainanzhongjian
jvm内存模型 堆内存on-heap: 堆外内存(非堆)(off-heap),默认为堆*0.1直接内存:jvm外内存(native内存)DirectByteBuffer栈、方...
表类型 写时复制(Copy On Write):仅使用列式文件格式(parquet,基本文件)存储数据。通过在写入过程中执行同步合并,仅更新版本并重写新文件。 读时合并(Me...
查询 Hudi 数据集 从概念上讲,Hudi物理存储一次数据到DFS上,同时在其上提供三种查询类型,如之前所述。 数据集同步到Hive Metastore后,它将提供由Hud...
背景 spark向集群1中的yarn提交任务,任务运行在集群1的yarn容器中。数据写入集群2的hdfs。集群1与集群2开通kerberos互信操作。 异常 解决方案 了解s...
kerberos 介绍 阅读本文之前建议先预读下面这篇博客kerberos认证原理---讲的非常细致,易懂 Kerberos实际上一个基于Ticket的认证方式。Client...
两个Hadoop集群开启Kerberos验证后,集群间不能够相互访问,需要实现Kerberos之间的互信,使用Hadoop集群A的客户端访问Hadoop集群B的服务(实质上是...
背景 使用idea调试spark + hive sql 程序时候,经常会碰到这个问题,比较难以解决。顾此处我总结了一下常见的解决方案。 异常 代码 注意:hive-site....
背景 目前flink读写hive表一直是一个比较麻烦的事情。虽然flink1.10版本更新了hive table api,生产环境中可以使用。但测试过程中还是会遇到很多问题。...
场景 linux环境客户端安装:将flink安装到一台linux机器上作为客户端。任务提交时,将flink任务提交到yarn集群进行运行。 安装过程 flink下载 下载地址...
目标 Flink Kerberos安全认证的主要目标是: 1.任务访问连接器的时候启用数据安全访问权限 2.与Zookeeper进行安全认证 3.与Hadoop组件进行安全访...
Flink中的DataStream程序是实现数据流转换的常规程序(例如,过滤、更新状态、定义窗口、聚合)。 数据流最初是从各种来源(例如,消息队列、套接字流、文件)创建的。 ...