什么是小文件 Spark官方的推荐文档中,parquet格式的文件的推荐大小是128M,小于该值的文件均可以称为小文件。但在实际工作中,小文件的...
前几日在MySQL执行一条update语句时报错,报错信息如下: 通过搜索查到有很多类似的报错例子,区别只是在于有的是3072 bytes,有的...
我们在通过Canal把MySQL的Binlog数据发送到MQ(kafak/rocketmq)时,需要关注mq的顺序性问题。Binlog本身是有序...
现状 使用DataX从生产DB拉取数据时,正常的业务场景我们都是通过增量拉取做Merge的方式来限制抽取的数据量,但存在以下几种情况需要做大数据...
在建设实时数仓的过程中,用到了Mysql存放增量的结果数据,所以需要定时清理历史数据,为了避免影响的线上的实时数据写入,采用了按照最后更改时间,...
周末的时候在家收到了工作的告警通知,远程登录后发现是自运维的CK集群硬盘空间不足,通过命令查看各个目录的大小,确定是Zookeeper的日志及s...
Hive Join common join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Com...
转载文章,原文链接[https://www.jianshu.com/p/f219d207d853] 1. 查看CPU 1.1 查看CPU个数 1...
近期在自建数据分析平台的时候,遇到了事实表包含两个业务时间语义的问题,结合数仓事实表建设方面的方法论,整理记录一些自己的想法。事实表的通常可以划...