维度属性层次 1.固定深度的位置层次 常用的是日期,最关键的是每个层次具有特定的名称 2.具有轻微不整齐的可变深度层次 地理层次。维度表设计时可采用最复杂的上...
维度属性层次 1.固定深度的位置层次 常用的是日期,最关键的是每个层次具有特定的名称 2.具有轻微不整齐的可变深度层次 地理层次。维度表设计时可采用最复杂的上...
订单管理-----对于历史变化的观察方法 事实表规范化问题 事实表规范化指,如一个事实表有5个维度,7个事实,那么规范化之后变成了7行,每行5个维度和1个事实,即把7个事实分...
参考DAMA教材,数据质量提升的步骤包括了数据剖析(数据探查)、原因梳理及实施的3步不断迭代循环。 数据剖析 理论上数据质量应该由数据使用人来评估,作为大数据团...
Hive分区表分区字段是日期是比较常见的情形,而在实际查询时,使用分区字段作为条件查询某分区,关联的字段可能是某个date类型的字段,此时可能会出现问题 解决...
环境:Mac 单机 安装命令 brew install kafka 自带安装zookeeper 配置文件目录:/usr/local/etc/kafka 配置文件说明---se...
模块默认路径 import sys,ppint pprint.pprint(sys.path) (比print展示更智能) 在展示的路径中找到site-packages目录,...
在python代码开头,需要添加__metaclass__=type,表示新式类 构造方法 用__init__实现,例如 class foorbar: def __ini...
作业的提交 创建内部的jobsubmiter实例来提交作业,具体步骤 1.向资源管理器 resource manager请求应用ID作为作业ID 2.检查作业的输出说明,如指...
python中最基本的数据结构是序列,序列中最常用的是列表和元组,此外还有字符串,buffer对象,xrange对象,unicode字符串。 列表 如 ['a',42] 表示...
Yarn组件 resource manager 负责整体资源调度 node manager 一个节点一个,负责节点的资源管理和调度,定期通过心跳向resouce manage...
任务报错 任务卡在map 100% reduce 100%,查看日志,发现报错如下 发现报错为任务超时,原因可能为内存满了或者存在超大行 查看数据,发现有content字段存...
shuffle:系统执行排序,将map输出作为输入传给reduce的过程称为shuffle。mapreduce确保每个reduce的输入都是按键排序的。 map端 每个map...
HDFS是Hadoop自带的分布式文件系统。 特性: 1.流式访问,大数据的分析主要涉及数据集打大部分甚至是全部,因此读取全数据集的延迟比读取单个记录的延迟更重要。 2.大量...
Hive 卡在map = 0%, reduce = 0%阶段 解决:增加map个数,设置mapreduce.input.fileinputformat.split.maxs...
分区 分区列其实在表中并不存在,每个分区键为表的存储添加了一个目录,但是查询会返回这一列,即使数据文件中没有存储这个数据,相当于返回了目录名称。 切忌对表过度分区,这样会导致...
一、create table if not exists 用于防止所建的表名已存在而报错 二、comment 字段或者表注释 三、Serde Inputformat Outp...