数据仓库建模

1、前言

从各个业务线的数据到运营决策的报表,数据在流转过程中,如何安全、高效、准确的流转,这是数据仓库需要解决的问题。

关于建模的方式主要有两种流派,分别有两本书

1、inmon的关系建模,《数据仓库第四版》

2、kimball的维度建模,《数据仓库工具箱》

因为维度建模更适用与现在互联网公司的快速迭代、敏捷开发,所以,我们以《数据仓库工具箱》的维度建模为主要学习参考

2、维度模型基础

数据仓库的最终目的:

  • DW/BI系统要能方便的存取信息
  • DW/BI系统要以一致的形式展示信息
  • DW/BI系统要适应变化
  • DW/BI系统要能及时的展示信息
  • DW/BI系统要能保证信息安全
总结下来就是:使用方便、一致性、可扩展性、及时性、安全性、准确性、业务适用性

维度建模按表可分为事实表维度表

事实表

事实表中的每行对应一个度量事件,每行中的数据是一个特定级别的细节数据,称为粒度,粒度可划分为三类:事务、周期性快照、累积快照

事实表的事实数值可分为三种:

  • 可加性

在维度建模中,对于大数据量的处理,一般累加起来是最简单也是比较直观的统计,例如销售额、成本等

  • 半可加

不能按时间维度汇总,例如账户结余

  • 不可加

例如单价、不可以相加统计

维度表

维度表包含与业务过程度量事件有关的文本环境,用于描述谁、什么、哪里、何时、如何、为什么等有关事件

与事实表比较,维度表一般包含较少的行,但是可能列数较多

区别

事实表 维度表
一般有多个外键 单一主键,用来和维度关联
一般多个值,可计算 一般有限个枚举值,通常用来过滤、分组

区别并不绝对,例如物品的单价,有时可能认为是商品的维度属性,但是有些物品的单价可能波动较大,从这一点看可以看作是事实的属性,所以具体的分类需要根据具体的需求来建立恰当的模型

3、维度模型和关系模型

维度模型

如下图,将数据仓库分为四部分,操作性源数据、etl系统、展现区、bi应用

image

操作性源数据指业务线上数据或其他产生的原始数据

etl这一步包括抽取数据,分割转换事实和维度字段,载入展示区的维度模型

展示区一般按星型模型或OLAP多维数据库存储,供bi应用查询调用,一般最好使用原子数据,包含最细粒度,满足无法预料的随意查询

维度建模的基础,也就是使用一致性维度,这个是维度建模把整个数据仓库串起来的基础

关系模型

在关系模型的数据仓库中etl最后载入的是满足三范式的数据库,这种规范、原子的数据的仓库被称为EDW(企业数据仓库)

image

如上图,关系模型借助规范化的EDW来满足用户分析和报表的需求,工程师更多的是从不同源获取数据,按三范式载入EDW

不管关系模型还是维度模型,都强调企业所有数据的同步、集成,这也是仓库的含义,而不是单一的库,不同的是关系模型强调用规范化的EDW(企业数据仓库)来承担这一任务,而维度模型强调适用一致性维度来实现整个企业数据的互通

混合模型

如下图,虽然也有EDW,但是更多的是作为维度模型的数据来源部分,展示区依然是采用更加灵活的维度建模方式供用户查询分析

image

总结

关系模型更强调满足三范式的EDW来实现查询分析需求,但是这种方式不够灵活,维度模型分事实数据和维度数据,能更方便的新增减少维度属性,更强调使用一致性维度来整合串联所有数据

参考资料

数据仓库工具箱第一章

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容

  • 概述 数据仓库这个概念是由 Bill Inmon 所提出的,其功能是将组织通过联机事务处理(OLTP)所积累的大量...
    无敌的肉包阅读 19,653评论 0 21
  • 数据仓库建模 1、什么是数据模型 数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式...
    nightwish夜愿阅读 1,526评论 0 21
  • ER模型:ER(Entity Relationship)实体关系模型在范式理论上符合3NF。数据仓库中的3NF与O...
    编程回忆录阅读 4,054评论 0 1
  • 1. 昨日接到村委會電話,叫我回去有要事詳談。安置好單位的工作后,便向領導請了三天短假,隨機短信告知妻子,讓她幫忙...
    leslie_0911阅读 248评论 0 0
  • 职业是无贵贱,但不见得哪种职业都适合自己。 皇帝都想不想当? 摇头的估计寥寥无几。但凭我们的能力,我们能当上吗? ...
    一图说法阅读 160评论 0 2