240 发简信
IP属地:安徽
  • Hive On Spark小文件处理

    什么是小文件 Spark官方的推荐文档中,parquet格式的文件的推荐大小是128M,小于该值的文件均可以称为小文件。但在实际工作中,小文件的...

  • MySQL 5.7 提示Specified key was too long; max key length is XXX bytes问题详解

    前几日在MySQL执行一条update语句时报错,报错信息如下: 通过搜索查到有很多类似的报错例子,区别只是在于有的是3072 bytes,有的...

  • Canal+MQ的顺序性问题

    我们在通过Canal把MySQL的Binlog数据发送到MQ(kafak/rocketmq)时,需要关注mq的顺序性问题。Binlog本身是有序...

  • DataX大数据量同步优化方案

    现状 使用DataX从生产DB拉取数据时,正常的业务场景我们都是通过增量拉取做Merge的方式来限制抽取的数据量,但存在以下几种情况需要做大数据...

  • Mysql表通过存储过程删除生产表数据

    在建设实时数仓的过程中,用到了Mysql存放增量的结果数据,所以需要定时清理历史数据,为了避免影响的线上的实时数据写入,采用了按照最后更改时间,...

  • Zookeeper日志清理

    周末的时候在家收到了工作的告警通知,远程登录后发现是自运维的CK集群硬盘空间不足,通过命令查看各个目录的大小,确定是Zookeeper的日志及s...

  • 笔记汇总

    Hive Join common join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Com...

  • 常用查看系统配置命令

    转载文章,原文链接[https://www.jianshu.com/p/f219d207d853] 1. 查看CPU 1.1 查看CPU个数 1...

  • 关于多事务事实表的一点思考

    近期在自建数据分析平台的时候,遇到了事实表包含两个业务时间语义的问题,结合数仓事实表建设方面的方法论,整理记录一些自己的想法。事实表的通常可以划...