用了几次impala + kudu做大数据实时计算场景,一路踏坑过来,这里分享踏坑经验 一开始需要全量导入kudu,这时候我们先用sqoop把关...
业务场景: 公司有两套集群,A集群专门做数据存储,B集群专门做数据清洗和数据展现 A集群每天定时把数据同步过来B集群后,B集群负责后续清洗和供业...
业务场景:收集nginx日志中个别信息进入kafka,为了避免kafka压力过大,这里优化了两点 刷选掉不需要分析的数据进入kafka 尽量把消...
本文档主要介绍在cdh集成kerberos情况下,sparkstreaming怎么消费kafka数据,并存储在kudu里面 假设kafka集成k...
场景分析 生产环境用beeline连接hive总是偶尔卡死 hive健康检查也总是偶尔告警 hive健康检查失败的同时,beeline连不上hi...
任何CDH报红的时候,都需要留意; 磁盘报警磁盘报警.png 问题定位 查看报红节点机器的磁盘情况查看磁盘.png 发现问题在/usr目录下, ...
下面实现一个用于存储键值对的数据格式类,它包含以下属性 用于存放元素的key,和对应的值value的实体 (称为node) 用于存放元素实体的数...
在实施方案前,假设读者已经基本熟悉以下技术 (不细说) Java,maven hdfs,kerberos 方案实施 最后目录大概如下目录结构....
CDH添加高hdfs高可用后,hive,impala查询报错 解决办法:1.进入Hive服务并停止Hive的所有服务2.点击 “操作” => "...