闲汤圆 - 简书

发简信

闲汤圆

28
关注
0
粉丝
0
文章
0

字数
0

收获喜欢
4

总资产

IP属地：上海

CodingCode

kafka配置KAFKA_LISTENERS和KAFKA_ADVERTISED_LISTENERS
kafka配置KAFKA_LISTENERS和KAFKA_ADVERTISED_LISTENERS 介绍kafka的两个参数KAFKA_LISTENERS和KAFKA_ADV...

24086 2 11
LittleMagic

Hive/HiveQL常用优化方法全面总结（下篇）
本文接上篇（https://www.jianshu.com/p/8e2f2f0d4b6c）继续讲解Hive/HiveQL常用优化方法，按照目录，会从“优化SQL处理join数...

5522 3 30
LittleMagic

Hive/HiveQL常用优化方法全面总结（上篇）
Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapRedu...

11464 3 26
data之道

再谈Spark Streaming Kafka反压
0x01 前言上篇文章Spark Streaming和Kafka集成深入浅出介绍了Spark Streaming的基本内容及和kafka的集成，其中也提到了开启反压的缘由：...

3712 1 9
DuCeh

xml文件中的一些特殊符号（&，<）的使用方法
xml文件配置 1. 问题说明平时我们在项目文件的配置或者用xml进行数据的存储或传输时，会遇到不能用一些特殊符号的问题，比如我在之前学习c3p0的时候，编辑c3p0-co...

23022 1 5
pcqlegend

Spark 任务执行排查慢的问题排查-2
现象描述： Application主要是从hadoop文件中读取数据，然后计算出24小时的车辆状态，并存储。所以总共24个Job。之前Application的平均执行时间是2...

6971 0 2
pcqlegend

Spark Job执行变慢问题的排查的流程
最近一个从Hbase捞取数据进行统计值的Spark Job 计算经常报警，执行时间大大超过以前的平均执行时间。于是打开一个application 发现这个applicatio...

4575 5 3
被爱的天青色

第九章事实表设计之累计快照事实表
累计快照事实表的主要用于研究事件之间时间间隔，当然并不仅限于此，还有一些特殊用途，可以在实际工作中灵活运用。设计特点 1）数据不断更新：不同于前面说的两种事实表，累计快照事...

9535 0 15
dingyuanpu

快速理解Spark Dataset
1. 前言 RDD、DataFrame、Dataset是Spark三个最重要的概念，RDD和DataFrame两个概念出现的比较早，Dataset相对出现的较晚（1.6版本开...

22737 2 35