数仓--Theory--对数仓面向主题的理解

面向主题

面向主题是数仓的四大特点之一,听起来很高大上,但是细细理解起来却有些费劲,本文主要是记录一下个人的理解,参考互联网上各种博客进行理解。

概念解析

  • 抽象概念
    • 主题(Subject) :在较高层次上将企业信息系统中数据进行综合、归类分析利用。属于一个抽象概念,每一个主题基本对应一个宏观分析领域。
  • 逻辑概念
    • 主题(Subject)是对应企业中某一宏观分析领域所涉及的分析对象(重点是分析的对象,对象,仔细理解一下对象的含义)。例如:"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象为商品、供应商、顾客、仓库等,那么数仓主题可以确定为商品主题、供应商主题、顾客主题、仓库主题;联系到下文"销售分析"可以作为一个主题域;如果"产品分析"是一个分析领域,"产品分析"所涉及到的分析对象为商品、地域、时间、类别等,那么数仓的主题确定为商品主题、地域主题、时间主题、类别主题,"产品分析"可以作为一个主题域。
  • 总结
    • 数仓的主题就是对某个分析领域的概念总结,是一个高屋建瓴式的方向领导,一个数仓可以有一个主题或者多个主题。
    • 主题是根据分析的要求确定的,这与按照数据处理或应用的要求来组织数据是不同的。例如:对于材料供应业务,在面向数据库系统中,重点应该效率化的处理材料供应的业务处理,在面向数据分析中,重点应该放在材料供应是否及时,材料供应质量,采购渠道等维度。
    • 数仓中,面向主题的数据组织方式,就是在较高层次上对被分析对象有一个完整、一致的描述,能刻画各个分析对象所涉及到的各项数据及数据之间的关系;
    • 通常在建立数据仓库的数据模型中已经定义好主题。典型的主题领域包括顾客、产品、订单和财务或是其他某项事务或活动。

主题域

此项有争议,下文从集合论和边界论两个方面进行分析

从数据角度看(集合论)

  • 主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成;

  • 个人理解:这种划分方式似乎是在Kimball学院派思想,确定主题和维度;

  • 主题域、主题、实体间关系


    主题域实体关系.jpg
  • 注意:从数据角度的前提是已经经过分析、梳理列出所有可能的数据主题,此处数据主题是细粒度的,是从微观到宏观 ;

从需要建设的数仓主题看(边界论)

  • 主题域是对某个主题进行分析后确定的主题的边界。
  • 因为在数仓的建设过程中,一般会一次建立一个主题或者是全部主题的一部分,需要对某个主题进行分析,确定主题所涉及到的表、字段、维度等界限。
  • 个人理解:边界论的思想似乎和Inmon学院派指导思想类似,理清主题之间的边界,可以由ER模型进行逻辑转化得来,对某一主题域的分析,需要先确定这个主题的关系边界,然后再进行逻辑建模。 有点自顶向下的进行设计开发的感觉;
  • 经典案例分析,以Adventure Works Cycle公司案例进行分析
    • Adventure 数仓需要分析的一般为主题:供应商主题、商品主题、客户主题和仓库主题。
      • 商品主题:超市商品的采购情况、商品的销售情况和商品的存储情况;
      • 供应商主题:供应商类别、供应时间、供应货物类别等情况;
      • 顾客主题:客户购买商品的情况;
      • 仓库主题:仓库中商品的存储情况和仓库的管理情况等;
        主题域边界论
    • 对需要初期建设的四个主题进行边界确定,确定主题边界需要进一步理解业务知识(注意:业务大于技术,注意业务知识的积累) ,各个主题边界确定的过程就是对每个主题进行细化过程,即由宏观把握到微观执行;
      主题域边界确定

确定主题内容

  • 当数仓主题定义好之后,数据仓库中的逻辑模型也就基本成形了,需要在主题的逻辑关系中列出属性和系统相关行为;此阶段需要定义好数据仓库的存储结构,向主题模型中添加所需要的信息和能充分代表主题的属性组;
  • 经典案例说明:
    • 以Adventure Works Cycle公司案例进行分析,分析主题:商品、销售、客户,在上述主题上添加能充分说明主题的属性组;


      主题的详细描述.PNG

主题的使用

  • 由于数据仓库的设计是一个螺旋发展的过程,在刚开始,没有必要在数据仓库的数据库中体现所有的主题,选择最重要的主题作为数据仓库设计的试金石是很有必要的。因此使用主题首先是找到需要分析的主题域。
  • 经典案例说明:
    • AdventureWorksDW数据仓库的概念模型设计中,在对需求进行分析后,认识到“商品”主题既是一个销售型企业最基本的业务对象,又是进行决策分析的最主要领域,因而把“销售分析”主题域(注意是销售分析是主题域)定义为要首先建立的主题域。通过“商品”主题的建立,经营者就可以对整个企业的经营状况有较全面的了解。先实施“商品”主题可以尽快地满足企业管理人员建立数据仓库的最初要求,所以先选定“商品”主题进行实施。
    • 确定"销售分析"主题域,即对商品主题进行边界划分;
      • 商品主题可能涵盖的关系表有商品表、供应关系表、购买关系表和仓储关系表;
      • 仓库主题可能涵盖的关系表有仓库关系表、仓库表、仓库管理关系表和管理员表。
      • 供应商主题可能涵盖的关系表由:供应商关系表,供应关系表等;
      • 顾客主题可能涵盖顾客购买表,顾客关系表等;
    • 把这些表的键和字段联系起来 ,可以形成如下的主题域边界划分的原始模型;


      销售分析主题域边界确定原始模型
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容