IP属地:安徽
简介 由于Spark应用写数据到Hive表时,容易因为shuffle数过多导致生成过多小文件,影响集群存储利用率;故需要一个能避免读写冲突的小文...
之前使用过foreach单条处理的MySQLSink,可能导致连续开关连接,性能较差,故通过prepareStatement的addBatch批...
Spark on yarn 执行流计算时,如果流挂了,没有提醒会导致实时指标计算停滞,为了保证流的7/24运行,需要有一个能监控Spark on...
报错:WARN TaskSetManager: Lost task 3.0 in stage 17.0 (TID 2071, node135.b...
问题-通过SQL在Impala和Mysql从库分别统计已经同步的表数据时,发现同一天的数据量不相同,进而发现Impala读取kudu的时间列时为...
问题-Delta文件是状态文件不能简单合并,否则可能导致状态无法恢复。状态文件多,主要是流和流join导致。根本原因-Spark的CheckPo...
1.foreachBatchspark2.4以后可以直接使用foreachBatch调用sparksql支持的jdbc批量写mysql,如下: ...