0o青团o0 - 简书

0o青团o0

IP属地：台湾

Spark小文件异步合并工具类
简介由于Spark应用写数据到Hive表时，容易因为shuffle数过多导致生成过多小文件，影响集群存储利用率；故需要一个能避免读写冲突的小文...

0.1 939 0 1
Structured Streaming自定义MySQLSink-威力增强版
之前使用过foreach单条处理的MySQLSink，可能导致连续开关连接，性能较差，故通过prepareStatement的addBatch批...

299 0 0

Spark 应用监控告警和自动重启
Spark on yarn 执行流计算时，如果流挂了，没有提醒会导致实时指标计算停滞，为了保证流的7/24运行，需要有一个能监控Spark on...

0.4 1546 0 4
Spark读Kudu时报认证问题
报错:WARN TaskSetManager: Lost task 3.0 in stage 17.0 (TID 2071, node135.b...

1133 3 0
StructuredStreaming写入Kudu时数据少于Mysql
问题-通过SQL在Impala和Mysql从库分别统计已经同步的表数据时，发现同一天的数据量不相同，进而发现Impala读取kudu的时间列时为...

616 0 0
StructuredStreaming的CheckPoint里面的Delta文件太多如何合并？文件目录数是否由shuffle数决定？
问题-Delta文件是状态文件不能简单合并，否则可能导致状态无法恢复。状态文件多，主要是流和流join导致。根本原因-Spark的CheckPo...

368 0 0
Structured Streaming自定义MySQLSink
1.foreachBatchspark2.4以后可以直接使用foreachBatch调用sparksql支持的jdbc批量写mysql,如下： ...

0.1 1017 1 1