Impala性能优化要点: 1. 为数据存储选择合适的文件格式(如:Parquet) 通常对于大数据量来说,Parquet文件格式是最佳的 2. 防止入库时产生大量的小文...
IP属地:陕西
Impala性能优化要点: 1. 为数据存储选择合适的文件格式(如:Parquet) 通常对于大数据量来说,Parquet文件格式是最佳的 2. 防止入库时产生大量的小文...
问题: Druid的Kafka Index Service Task在配置完规则之后,按天分Segement,导致每天都有8小时的数据丢失 原因: Druid里使用UTC时间...
最近在在使用selenium爬取数据的时候,需要用到代理和JS渲染,使用PhantomJS渲染的效果无法解析部分数据,所以用了chrome渲染,现在找到的ChromeDriv...
Apache Flink 以一种特有的方式来处理数据类型和序列化,包括自有的类型描述器、泛型抽取和类型序列化框架,本文将描述其背后的概念和原理。 Flink的类型处理 Fli...
Flink的并发执行 本章描述如何在Flink中配置程序的并发执行,一个Flink程序可以由不同的task(如:transformations/opterators,data...
Structured Streaming 与0.10及以上版本的Kafka整合来对Kafka中的读书进行读取和写入操作。 Linking 对于使用SBT/Maven定义的Sc...