240 发简信
IP属地:西藏
  • 120
    Hive优化(五)-避免数据倾斜

    1.数据倾斜 什么是数据倾斜 在单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈,这是分布式系统不可能避免的问题。从本质上说,导致数据倾...

  • HBase原理——要弄懂的sequenceId

    为什么需要sequenceId? HBase数据在写入的时候首先追加写入HLog,再写入Memstore,也就是说一份数据会以两种不同的形式存在于两个地方。那两个地方的同一份...