kafka配置KAFKA_LISTENERS和KAFKA_ADVERTISED_LISTENERS 介绍kafka的两个参数KAFKA_LISTENERS和KAFKA_ADV...
kafka配置KAFKA_LISTENERS和KAFKA_ADVERTISED_LISTENERS 介绍kafka的两个参数KAFKA_LISTENERS和KAFKA_ADV...
本文接上篇(https://www.jianshu.com/p/8e2f2f0d4b6c)继续讲解Hive/HiveQL常用优化方法,按照目录,会从“优化SQL处理join数...
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapRedu...
0x01 前言 上篇文章Spark Streaming和Kafka集成深入浅出介绍了Spark Streaming的基本内容及和kafka的集成,其中也提到了开启反压的缘由:...
xml文件配置 1. 问题说明 平时我们在项目文件的配置或者用xml进行数据的存储或传输时,会遇到不能用一些特殊符号的问题,比如我在之前学习c3p0的时候,编辑c3p0-co...
现象描述: Application主要是从hadoop文件中读取数据,然后计算出24小时的车辆状态,并存储。所以总共24个Job。之前Application的平均执行时间是2...
最近一个从Hbase捞取数据进行统计值的Spark Job 计算经常报警,执行时间大大超过以前的平均执行时间。于是打开一个application 发现这个applicatio...
累计快照事实表的主要用于研究事件之间时间间隔,当然并不仅限于此,还有一些特殊用途,可以在实际工作中灵活运用。 设计特点 1)数据不断更新:不同于前面说的两种事实表,累计快照事...
1. 前言 RDD、DataFrame、Dataset是Spark三个最重要的概念,RDD和DataFrame两个概念出现的比较早,Dataset相对出现的较晚(1.6版本开...