上海财经大学鲜为人知的数据治理与分析之道【下】

继上篇推出后,大家惊艳于上海财大的数据分析成效,今天就来聊聊其背后关于技术的那些事。

先来回顾一下上海财大近期做了哪些数据分析应用……

“数据仓库”在这些数据应用分析背后扮演着重要角色,也是决定学校数据分析工作越来越高效化的关键因素。

今天重点围绕数据仓库建设流程展开讨论,主要包括系统架构设计、源数据分析、主题规划、数据模型设计、数据ETL开发、前端应用开发、系统监控、数据分析思维8个环节。

1、系统架构设计

以下是典型企业级数据仓库架构:包括三层数据存储,第一层是操作数据层,作为采集数据的缓冲区;第二层是基础数据层,这是数据仓库的核心;第三层就是面向报表开发的数据集市层,每一个数据存储层都涉及相应的数据处理过程。

数据仓库系统架构图

下面是数据仓库各类数据的关系,其中箭头表示数据流向,柱子大小代表存储的数据量,ODS层会存储多天的历史数据,数据量相对大一些;EDW层数据相对少一些,数据集市层存储面向应用的数据,一般情况下数据量不会太大。

数据仓库各类数据关系

鉴于学校数据量不太大的情况,数据库可以采用一个物理库,然后用不同用户做逻辑区分。在ODS层,每个业务系统对应一个用户,右边EDW和DDW对应数据仓库基础层与应用分析集市层,这种存储结构有利于后续的数据库的管理和使用。

数据存储结构

2、源数据分析

平时做报表,无论是利用工具还是用excel,必然会涉及到分析源数据内容,比如源数据有哪些字段,数据类型是什么,数据内容是什么等等,这些都是源数据分析的工作,源数据分析结果直接与数据仓库模型设计相关。源数据分析是数据仓库项目建设的关键,投入的时间一般要占项目的1/3。

源数据分析步骤

源系统分析需要重点分析:系统功能与作用、核心业务流程、核心业务数据等内容;然后进行表级分析,包括:表类型、业务重要程度、数据重要程度,我们要清楚每张表的定义,方便后期准确划分主题。

还需要进行源字段分析,包括:字段含义、数据存放关系等。分析过程中必须要清楚所有元数据的定义,业务系统如果不能提供这些分析资料就需要补充完整,并和业务系统管理员、厂商确认源数据分析结果是否准确。

3、主题规划

主题规划原则

主题划分并没有绝对标准,不同行业有不同划分方法,我们学校参照证券行业的划分方法进行了修改。主题定义是基于系统和业务对数据进行抽象的过程,主题域不宜太多,要预留一定空间为后续新增业务和数据扩展做准备。

主题规划关键点
主题内容

4、数据模型设计

不做集成的数据仓库只有形而没有神,因此数据仓库一定要做数据集成,形成全局数据视图。集成包括数据和结构两个方面,其中数据集成的核心是公共代码合并,不同业务系统可能有不同代码表,但在数据仓库只能保留一套代码标准。需要注意的是,只有不同业务系统同时存在的重复代码才需要合并。

结构集成主要是拆分和合并两种方法,复杂情况也无非就是拆分和合并的组合,拆分包括行级拆分和列级拆分。数据模型设计并不是要将业务系统的所有结构都重新拆分、组合,只有不合理的才需要调整结构。

ODS层数据模型
EDW层数据模型
DDW层数据模型

最后,重点分享一些数据分析的思维。

1、数据可视化思维

单纯的数字展示往往显得枯燥,缺乏视觉冲击力,对用户没有足够的吸引,也无法突出要反映的问题。将数据以可视化的方式展示,显得生动,不枯燥。有些本质很简单的数据加上可视化效果就显得高大上了,而且容易吸引眼球。

2、图表简洁思维

大多数人刚开始做报表都会刻意追求漂亮、酷炫,将报表做的很复杂,包含很多信息,我刚开始也是这样,但后来慢慢发现不该是这样的。一个内容丰富的仪表盘可以采用分块组织,同时要保证每块内容的主题或要展现的问题非常明确、简洁,在这个基础上如有精力再考虑美观漂亮的效果呈现。

3、发掘问题思维

机械地展示数字不是报表的目的,报表是为了发掘问题,通过解决问题优化管理模式,这样数据分析才更有意义。举个例子:科研评价不仅看重成果数量,更看重成果质量,比如某个学院的论文数量虽然不多,初看是个比较严重的问题,但是论文级别都很高,能够反映该学院的科研水平比较高。

4、逆向求证思维

对于数据分析和数据挖掘结果我们要结合经验做反向推理和求证,验证分析结论是否符合正常逻辑,使我们的分析结论更准确,更有意义。

5、用户定位思维

如同开发应用系统一样,我们首先要确定面向的用户人群,报表也是同样,针对不同用户要采用不同的展现形式。如:面向校领导的报表要简洁、直观,不需要太多互动,所见即所得;面向普通业务人员的报表可以增强报表的互动性,如借助筛选、钻取等功能提供更丰富的分析结果;面向技术人员的报表可以提供更多的交互操作,复杂计算功能,给用户更大的交互空间。

最后,想和所有学校共勉:希望所有学校都能拥有这样天时、地利、人和的条件,以支撑我们共同做好数据分析工作。

1、领导重视、经费充足、人员合理。人员合理组成包括:精通高校业务的业务分析师、了解数据分析的业务系统管理员、BI开发人员。

2、拥有稳定运行至少使用半年或一年以上,已积累大量数据的成熟业务系统。

数据ETL开发、前端应用开发、系统监控等内容涉及技术广且深,因篇幅原因不再展开。(若需详细了解,可加小智微信:wisedu2008。)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容