数据资产管理--非常重要--了解数据资产管理主要能做什么和要做什么
数据资产的定义
- 数据资产定义:企业拥有或控制的,能够为企业带来未来经济利益的、以物理或电子方式记录的数据资源,eg:文件资料、电子数据;
- 数据资产管理定义:规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和条数据资产价值;
- 数据资产管理目的:数据资产管理是通过一系列手段、以控制、保护、交付和提高数据资产的价值
数据资产管理现状和挑战
- ·缺乏统一的数据视图:数据资源分布在企业的多个业务系统中,分布在线上和线下,甚至分布在企业的外部。由于缺乏统一的数据视图,数据的管理人员和使用人员无法准确快速地找到自己需要的数据。数据管理人员也无法从宏观层面掌握自己拥有哪些数据资产,拥有多少数据资产,这些数据资产分布在哪里,以及变化情况怎样等
- 数据基础薄弱:大部分企业的数据基础还很薄弱,存在数据标准混乱、数据质量参差不齐、各业务系统之间数据孤岛化严重、没有进行数据资产的萃取等现象,阻碍了数据的有效应用
- 数据应用不足:受限于数据基础薄弱和应用能力不足,数据应用的深度不够
- 数据价值难估:难以对数据对业务的贡献进行评估,一是没有建立合理的数据价值评估模型,二是数据价值与企业的商业模式密不可分,在不同应用场景下,同一项数据资产的价值可能截然不同
- 缺乏安全的数据环境:安全管理制度不完善、缺乏相应的数据安全管控措施
- 数据管理浮于表面:没有建立一套数据驱动的组织管理制度和流程,没有建设先进的数据管理平台工具,导致数据管理工作难落地
数据资产管理的4个目标
- 可见:通过数据资产盘点,形成数据资产地图;对数据生成者、管理者、使用者等不同的角色,用数据资产目录共享数据资产,用户可快速、精确的查找自己关心的数据资产;
- 可懂:通过元数据管理,完善对数据资产的描述;同时在数据资产的建设过程中,注重数据资产业务含义的提炼,将数据加工和组织成人人能懂、无歧义的数据资产,即标签化(标签是面向业务视角的数据组织方式);
- 可用:通过统一的数据标准、提升数据质量和数据安全等措施,增加数据的可信度,让数据科学家和数据分析人员没有后顾之忧;
- 可运营:通过建立一套符合数据驱动的组织管理制度流程和价值评估体系,改进数据资产建设过程,提升数据资产管理的水平,提升数据资产的价值;
数据资产管理在数据中台架构中的位置
- 数据资产管理在数据中台架构处于数据开发和数据应用之间;
- 数据资产管理对上支撑以价值挖掘和业务赋能为导向的数据应用开发,对下依托大数据平台实现数据生命周期管理;
- 对企业数据资产的价值、质量进行评估,促进企业数据资产不断自我完善,持续向业务输出动力 ;
数据治理
数据治理6个目标
- 提升数据质量,帮助做出基于数据的更高效、更准确的决策;
- 构建统一的、可执行的数据标准;
- 良好的响应数据生成者、消费者、数据处理技术人员等数据利益相关者的需求;
- 培训组织内所有的管理层和员工,让大家采用共同的解决数据问题的办法;
- 实现可重复的数据管理流程,并确保流程透明;
- 实现数据的可持续性运营、数据资产的增值;
数据治理6个原则
- 标准化原则:数据标准化是实现高价值数据、支撑以数据为基础的相关业务的先决条件;必须制定可参考、可落地的标准;当产生争议的时候,有权威的标准可供仲裁参考。
- 透明原则:除了一些需要保密的安全措施之外,数据治理相关的文件、数据问题的发现等,应公开透明,相关人员应清楚正在发现的事情,以及事情发生后应如何按照原则处理。
- 数据的认责和问责:数据治理必须先解决数据无人问责的问题,数据的认责是数据治理的先决条件,数据的问责和考核制度是确保数据治理工作真正落地的制度保障。
- 平衡原则:在进行数据治理过程中,必须在代价和收益之间取得平衡;没有必要最求百分百的数据质量,对于历史遗留数据,数据标准也不可能对其进行完全约束;数据可商用是平衡原则的重要参考。
- 变更原则:既要控制数据的变更流程,也要主动适应变化,推动标准更新;
持续改进原则:业务在不断变化,数据在持续生产,数据治理非朝夕之功,需要持续推动,不断改进,形成长效机制。
数据治理理论体系
- DAMA从数据治理生命周期角度对数据资产的管理行使权力和控制的活动(规划、监控和执行)进行了重点研究。定义了数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理、数据质量管理这10个领域,以及目标和原则、活动、主要交付物、角色和职责、技术、实践和方法、组织和文化这7个环境因素,为数据管理提供了完整的结构体系。
- DCMM充分结合大数据特点和国内数据治理现状,形成数据战略、数据治理、数据架构、数据标准、数据质量、数据安全、数据应用、数据生命周期8个核心领域 及28个过程域,重点关注数据的管理过程和方法。
- DCMM中数据管理成熟度等级:
初始级:被动式数据管理;
受管理级:意识到数据是资产,制定管理流程,指定了相关人员进行初步管理;
稳健级:数据被当做重要资产,制定了系列的标准化管理流程,促进数据管理的规范化;
量化管理级:数据被认为是获取竞争优势的重要资源,数据管理的效率可以量化分析和监控;
优化级:相关管理流程能实时优化,能在行业内进行最佳实践分享; - DCMM可为组织带来的收益:
规范数据管理方面的职能域划分
提出数据管理参考内容、流程和工具集
获得数据管理现状、识别差距并提出未来发展方向
建立数据管理相关能力域的最佳实践
持续提升数据管理能力
数据治理3个发展趋势
从质量管理到质量与服务并重:通过数据资产管理,在传统的数据治理能力之外,提供数据资产视图能力、数据检索能力、数据共享能力、数据价值运营能力;
人工智能大幅度提升数据治理效率
以元数据为核心的分布式数据治理:元数据将成为未来数据治理的基础和核心;
数据资产管理和数据治理的关系
数据资产管理在传统的数据治理的基础上,加入了数据价值管理、数据共享管理等内容;
数据治理的目标是“以质量管理为主”过渡到“质量管理与服务并重”;
数据资产管理职能
数据标准管理
- 数据标准管理
数据标准定义:数据标准是对数据的表达、格式以及定义的一致约定,包含数据业务属性、技术属性和管理属性的统一定义
数据标准目的:使组织内外部使用和交换的数据是一致的、准确的
制定数据标准步骤:资料搜集、调研访谈、分析评估(梳理业务指标、数据项、代码等)、形成并制定适用于组织的数据标准、发布和公式数据标准 - 数据标准分类
业务术语(被批准、管理的业务概念定义的描述,需要流程来定义组织如何创建、审批、修改和发布统一的业务术语,进而推送数据的共享和在组织内部的应用)标准
参考数据(数据字典,是数据的可能取值范围)和主数据(需跨系统、跨部门共享的核心业务实体数据)标准
数据元(数据最基本单元)标准,数据元由3部分组成:对象类、特性、表示值域和数据类型的组合
指标数据(衡量某个目标或事物的数据,由指标名称、指标解释、时间限定、其他条件限定、指标数值等组成)标准 - 数据标准和数据标准化区别
数据标准:一经制定发布后相对稳定的静态文件
数据标准化:一项带有系统性、复杂性、困难性、长期性特征的动态管理工作,是对标准的某种程度上的落地 - 标准化中的难题
制定的数据标准本身有问题
标准化推进过程中出现问题:对建设数据标准目的不明确、过分依赖咨询公司、对数据标准化的难度评估不足、缺乏落地的制度和流程规范、组织管理水平不足 - 如何解决这些难题
制定可落地的执行方案;
正确认识数据标准建设的目的:即统一组织内的数据口径,指导信息系统建设,提高数据质量更可信的处理和交换数据,而不是应付上级和监管机构的检查;
正确认识咨询公司在数据资产管理工作前期的作用;
充分认识到数据标准化的难度;
落地实施中,建立起科学可行的数据标准落地形式(源系统改造-不建议、数据接口标准化、数据中心落地-源系统数据与中心数据做好映射、保证传输到数据中心的数据为标准化后的数据):事先确定好落地的范围、事先做好差异分析、事先做好影响性分析、具体执行落地方案、事后评估;
数据模型管理
- 数据模型定义
指对现实世界数据特征的抽象,用于描述一组数据的概念和定义;数据模型从抽象层次上描述了数据的静态特征、动态行为和约束条件; - 数据模型分类
概念数据模型:一种面向用户、面向客观世界的模型,主要用来描述世界的概念化结构,与具体的数据库管理系统无关;
逻辑数据模型:以概念模型的框架为基础,根据业务条线、业务事项、业务流程、业务场景的需要,设计的面向业务实现的数据模型,包括网状数据模型、层次数据模型;
物理数据模型:描述数据在存储介质上的组织架构; - 数据模型管理现状
生产库里面存在大量没有注释的字段和表,意思含糊不清,同名不同义、同义不同名、冗余字段、枚举值不一致等现象;
模型变更前没有任何合理性判断;
模型修改过程中缺乏监管;
很多企业的模型数据是一个黑盒。 - 数据模型管理目标
为了解决架构设计和数据开发的不一致,而对数据开发中的表名、字段名等规范性进行约束; - 数据模型管理主要活动
定义和分析企业数据需求;
定义标准化的业务用语、单词、域、编码等;
设计标准化数据模型,遵循数据设计规范;
制定数据模型管理办法和实施流程要求;
建设数据模型管理工具,统一管控企业数据模型。
元数据管理
- 元数据概念
元数据是描述数据的数据
元数据是数据治理的核心和基础,它相当于数据的一张地图,通过地图可以知道这些信息:有哪些种类的数据;有哪些系统的数据、哪些数据库、哪些表、哪些字段(表名、字段名、表的所有者、主键、索引、表与表之间的关系);数据全量是多少,每日增量是多少?数据分布在哪里;数据之间的流向关系;
元模型:描述元数据的数据 - 元数据来源
元数据贯穿大数据平台数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、指标层元数据、标签层元数据、服务层元数据、应用层元数据等
元数据采集即获取到分布在不同系统中的元数据,对元数据进行组织,然后将元数据写入数据库中的过程;
元数据采集方式包括数据库直连、接口、日志文件等技术手段,对结构化数据的数据字段、非结构化数据的元数据信息、业务指标、代码、数据加工过程等元数据信息进行自动化和手动采集;采集完后,通常被存储在关系型数据库中。 - 元数据分类
技术元数据:库表结构、字段约束、数据模型、ETL程序、SQL程序等;
业务元数据:业务指标、业务代码、业务术语;
管理元数据:数据所有者、数据质量定责、数据安全等级等; - 元数据管理
元数据的增删改查:同构角色赋予操作权限,需经过元数据管理员的审核流程;
元数据变更管理:对历史进行查询,前后版本对比;
元数据对比分析:对相似元数据进行对比;
元数据统计分析:掌握汇总信息,统计各类数据的种类、数量、数据量等; - 元数据应用
元数据浏览和检索:元数据浏览和检索可以大大提升信息在组织内的共享;
血缘分析(指向数据的上游来源):获取数据的血缘关系,以历史事实的方式记录数据的来源、处理过程等;血缘分析对用户具有重要的价值,比如当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,快速定位到问题的来源和加工流程,减少分析的时间和难度。
影响性分析(指向数据的下游):能分析出数据的下游流向;当系统进行升级改造时,如修改了数据结构、ETL程序等元数据信息,依赖数据的影响性分析,可以快读定位元数据修改会影响到那些系统,减少系统升级改造带来的风险。
数据冷热度分析:对数据表被使用情况进行统计;如观察到某些数据资源处于长期闲置,没有被任何用户查看,也没有任何应用调用它的状态,用户就可以参考数据的冷热度报告,结合人工分析,对冷热度不同的数据做分层存储,以便更好的利用HDFS资源;或者评估是否对失去价值的这部分数据做线下处理,以节省数据存储空间。
主数据管理
- 主数据概念
主数据是用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体、是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统、高价值的基础数据,是各业务应用和各系统之间进行数据交互的基础;
主数据是企业信息系统的神经中枢,是业务运行和决策分析的基础;
主数据分布在不同的应用系统,而不同的应用系统之间主数据的定义、属性、编码存在众多不一致,极大影响了系统和数据之间的融合与集成。 - 主数据管理内容
主数据相关标准及规范设计:核心工作,建立一套完整的标准体系和代码库,对企业经营活动中所涉及的各类主数据制定统一数据标准和规范;
主数据模型:建立主数据架构的物理模型,包括数据属性的定义、数据结构设计、数据管理定义等;
主数据梳理和集成:根据主数据标准规范,依托于数据集成平台以及主数据质量模块,辅助业务部分将现有的主数据内容重新进行数据编码、数据转换、数据侵袭等,形成企业标准的主数据库。
主数据质量管理:对主数据系统中的数据进行统一闭环管理,覆盖数据质量的定义、监控、问题分析、整改和评估,推动质量问题的解决;在数据清洗过程中,进行数据质量的管理,并生成数据质量报告,提供数据质量管理服务;
建立灵活的主数据共享服务;
建立主数据维护流程;
数据质量管理
管理目标
数据质量现状如何,谁来改进,如何提高,怎样考核问题产生根源
管理不善、技术和流程只是其表象数据质量评估的标准
准确性:描述数据是否与其对应客观实体的特征一致,eg:用户住址是否正确,某个字段是否存在乱码;
完整性:描述数据是否存在缺失记录或者缺失字段;
一致性:描述统一实体同一属性的值在不同的系统中是否一致;
有效性:描述数据是否满足用户定义的条件或在一定取值范围内;
唯一性:描述数据是否存在重复记录;
及时性:描述数据的产生和供应是否及时;
稳定性:描述数据的波动是否稳定,是否在有效范围内;
连续性:描述数据额编号是否连续;
合理性:描述两个字段之间的逻辑关系是否合理;-
数据质量管理流程
梳理和分析数据质量问题,摸清数据质量的现在;对业务数据进行全部或者抽样扫描,找出不符合质量要求的数据,形成数据质量报告
针对不同的数据问题选择合适的解决方案,制定详细的解决方案
问题的问题,追踪方案执行的效果,督查检查,持续优化
形成数据质量问题解决方案的知识库
-
数据质量管理的取舍
数据质量管理流程;
对不同时间维度的数据采取不同的处理方式:历史数据:用数据清洗的办法解决,对于实在清洗不了的,要判断投入产出比,决定是否要对所有的历史数据进行治疗管理;在大多数情况下,历史数据的时间越久远,其价值越低;历史数据是否要进行管理,以“是否可商用”作为评判的标准。 当前数据:严格遵守流程,避免脏数据流到数据分析和应用环节。 未来数据:一定要从资产管理的整理规划开始,从整个组织信息化的角度出发,规划组织内统一的数据架构,制定出一定的数据标准。
数据安全管理
对数据设定安全等级,按照国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理规范制度、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合规合法、安全地采集、传输、存储和使用。数据共享管理
数据共享管理主要指数据共享和交换,实现数据内外部价值的一系列活动
数据共享包括数据内部共享(跨组织、部门的数据交换)、外部流通(企业间数据交换)、对外开放
为了数据共享的安全和监管,必须对数据输出的状态有相应的分析和监控;数据输出监控有服务链路分析、影响度分析、异常监控警告等;数据API服务管控包括API接口鉴权认证、流量控制、访问次数控制等生命周期管理
不可恢复数据管理:一般建议永久保存,在实施过程中可以考虑冷数据用低价存储的方式,未来需要使用时在进行恢复;
可恢复数据管理:只需要有原始数据和加工模型在,就可通过平台的调度策略恢复,这类数据的生命周期一般会根据实际使用情况来灵活调整。标签管理
标签分类:
数据分类方式,如根据数据的来源、更新频率、归属部门等进行标识和分类;
对数据的内容进行重新描述甚至重新组织的方式,从某个业务视角重新定义等。
标签管理内容:包括标签体系的管理、标签与数据映射关系、标签的应用管理;
标签类目体系是标签信息的一种结构化描述;
指标、画像、字段的概念
指标:为达到某一个具体业务目标而定义的描述约定,是一种衡量目标的方法,主要针对某个场景而提炼的一些关键评判维度;
画像:指某个对象从各个标签的维度的具体内容描述;
字段:一种物理存储的形态。数据资产门户
数据资产地图:
让用户最直观的方式、掌握数据资产的概况,如数据总量、每日数据增量、数据资产质量的整体状况、数据资产的分类情况、数据资产的分布情况、数据资产的冷热度排名、各个业务域及系统之间的数据流动关系等;
数据资产目录
组织方式:常见的有按业务域组织、按数据来源组织、按数据类型组织;
用户角色分类
数据资产开发者:关注当前开发的数资产是否有重复,是否有准确的定义,通过数据资产目录,可以将自己负责开发的数据资产发布到合适的资产目录;
数据资产管理者:掌握数据资产的全局情况,包括拥有哪些数据资产、分布在哪里、质量情况、使用情况等;通过对数据资产的合理授权,控制数据资产的使用;
数据资产使用者:关心数据是什么、数据在哪里、如何获取数据,通过数据资产目录和获得的授权,快速定位到自己需要的资产,掌握数据资产的存在形式(结构化或半结构化);
数据资产检索:
为用户提供一键式资产检索服务,根据关键字匹配,搜索后查看资产名称、创建者、业务语义、加工过程等
数据资产管理效果评估
- 根据行业特点评估效果
金融行业:相对更重视数据标准和数据质量的实施效果;
政府部门:相对更重视数据的安全可控、数据交换的及时性和共享开放性;
电信行业:更重视数据资产是否被良好组织和管理起来,以及是否实现了开放共享; - 建设目标:
全面监控组织数据质量情况。
建立数据质量问题管理机制。 - 建设内容为:
制订数据质量检查计划。
数据质量情况剖析。
数据质量校验。
数据质量问题管理。 - 评估模型
初始级:开展偶然的数据质量检查活动,基于出现的数据问题进行问题查找;
受管理级:定义了数据质量检查方面的管理制度和流程,明确了数据质量剖析的主要内容和方式,在某些业务领域按计划进行数据治理的剖析和校验;
稳健级:明确了组织级的数据质量检查制度和流程,定义了相关人员在其中的职责,定义了相关的执行计划,统一开展数据质量检查,并根据结果进行考核;
量化管理级:定义并应用量化指标,对数据质量检查和问题处理过程进行有效分析,可以及时对相关制度和流程进行优化;
优化级:在业界分享组织数据质量检查的实践经验,成为行业标杆;
数据资产管理的7个成功要素
- 强有力的组织架构:有力保证
- 清洗的数据战略:指导数据资产管理的最高原则;
- 重视数据的企业文化
- 合理的制度与流程
数据需求管理办法
数据模型管理办法
数据标准管理办法
元数据管理办法
数据质量管理办法
数据共享管理办法
数据安全管理办法
数据生命周期管理办法 - 标准与规范:开展数据资产管理的前提和基础;
- 成熟的软件平台
数据质量管理系统
元数据管理系统
数据标准管理系统
数据安全管控平台
数据资产中心 - 科学的项目实施:需长期持续不断改进