一. 问题描述 今天早上到公司,突然收到CDH集群某个节点的存储量的告警,如下图所示: 从图中可以看出,每个节点的HDFS空间是相同的,大多节点...
一. 问题描述 hive的一些默认参数设置不适合一些复杂的数据需求场景,需要针对具体情况进行调整。 二. 解决方案 以下是常见的调参:
一. 问题描述 公司的离线数仓是CDH集群,19个节点,HDFS存储空间大约400TB左右,使用量在200TB左右。由于历史遗留的问题,数据仓库...
一. 问题描述 公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到...
一. 问题描述 需求描述:表概述: 需要实现的需求 SQL代码: 运行日志:从日志可以看到,数据倾斜了,redcue一直卡在99%不动,过一段时...
一. 问题描述 一个很简单的group by和count(*) 操作,然后居然报错了 二. 解决方案 大概是在Oracle MySQL上写SQL...
一. 问题描述 今天接到一个新需求,hive表里面有个字段存储的是XML类型数据 数据格式: 二. 解决方案 2.1 官方文档 遇到不懂的问题,...
一. 问题描述 今天遇到一个问题,一个大表join 一个拉链表,获取对应的数据 大表t_big,数量2kw左右小表t_lalian,是拉链表,数...
一. 问题描述 今天跑一个MR任务,数据量不大,跑了半个小时左右,遇到了超时的报错 报错信息: 二. 解决方案 调整参数即可
文集作者