一、背景知识 Kafka定义 传统定义:Kafka 是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 最新定义:Kafka 是一个开源的分布式事件流...
spark-shuffle Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Re...
@[toc] 一、分片介绍 分片是 Elasticsearch 在集群中分发数据的关键。 把分片想象成数据的容器。文档存储在分片中,然后分片分配到集群中的节点上。当集群扩容或...
项目中有2个定时任务要执行,并且调用相同的公共类查询hbase 公共类的代码如下: 上线后,报错:error日志:2021-02-07 15:27:18 [task-2] E...
【福利】探求ETL本质http://mp.weixin.qq.com/s?__biz=MjM5MTYwMjI3Mw==&mid=2652093433&idx=1&sn=bd5...
由于项目中的hadoop、hbase版本升级,将原来的代码中的maven替换为springboot,方便后续基于springboot做一些连接、整合等操作上线报错:java....
1. Why? 通过 maven-shade-plugin 生成一个 uber-jar,它包含所有的依赖 jar 包。 2. Goals GoalDescriptionsha...
项目中需要将hdfs数据导入hbase其中:hbase 版本 2.0.2hadoop 版本3.1.1 使用springboot整合hadoop、hbase的maven如下: ...
【摘要】 Kafka时间轮是Kafka实现高效的延时任务的基础,它模拟了现实生活中的钟表对时间的表示方式,同时,时间轮的方式并不仅限于Kafka,它是一种通用的时间表示方式,...
ambari页面新增hbase服务,出现Cannot create /var/run/ambari-server/stack-recommendations原因是当前用户在/...
前言:掌握Hbase的重要性不言而喻,掌握Hbase的设计原理更是重中之重。本文是对HBase原理进行讲解系列文章的开篇,本文尽量详细的从整体上介绍HBase的架构,并对每个...
使用hive时,报错Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.t...