《DAMA-DMBOK2》读书笔记-第12章 元数据管理

1 文章结构脑图

第12章 元数据管理 10%.png

2 基本概念

2.1 元数据与数据

如何在元数据和非元数据之间划分界限? 从概念上讲,这条边界与数据所代表的抽象级别有关。==例如, 在报告美国国家安全局对美国人使用电话的监控情况时,电话号码和通话时间通常被称为“元数据”,这意味着“真实”数据只包括电话交谈的内容,常识是电话号码和通话时间也只是普通数据。== <font color =green>P323</font>
从经验来说,一个人的元数据,可能是另一个人的数据。即使是看似元数据的东西(如一列字段名称),也可能是普通数据。==例如,该数据可以作为输入,满足多个不同组织理解数据和分析数据的需求。== <font color =green>P323</font>
组织不应该担心理论上的区别,相反他们应该定义元数据需求,<font color=red>重点关注元数据能用来做什么(创建新数据、了解现有数据、实现系统之间的流转、访问数据、共享数据)和满足这些需求的源数据。</font> <font color =green>P323</font>

2.2 元数据的类型

元数据通常分为三种类型: 业务元数据、技术元数据和操作元数据。

  1. 业务元数据
    业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
    示例包括: <font color=red>1)数据集、表和字段的定义和描述。2)业务规则、转换规则、计算公式和推导公式。3)数据模型。4)数据质量规则和检核结果。5)数据的更新计划。6)数据溯源和数据血缘。7)数据标准。8)特定的数据元素记录系统。9)有效值约束。10)利益相关方联系信息(如数据所有者、数据管理专员)。11)数据的安全/隐私级别。12)已知的数据问题。13)数据使用说明。</font> <font color =green>P324</font>

  2. 技术元数据
    技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。
    示例包括: <font color=red>1)物理数据库表名和字段名。2)字段属性。3)数据库对象的属性。4)访问权限。5)数据CRUD(增、删、改、查)规则。6)物理数据模型,包括数据表名、键和索引。7)记录数据模型与实物资产之间的关系。8)ETL作业详细信息。9)文件格式模式定义。10)源到目标的映射文档。11)数据血缘文档,包括上游和下游变更影响的信息。12)程序和应用的名称和描述。13)周期作业(内容更新)的调度计划和依赖。14)恢复和备份规则。15)数据访问的权限、组、角色。</font> <font color =green>P324</font>

  3. 操作元数据
    操元数据(Operational Metadata)描述了处理和访问数据的细节。
    示例包括: <font color=red>1)批处理程序的作业执行日志。2)抽取历史和结果。3)调度异常处理。4)审计、平衡、控制度量的结果。5)错误日志。6)报表和查询的访问模式、频率和执行时间。7)补丁和版本的维护计划和执行情况,以及当前的补丁级别。8)备份、保留、创建日期、灾备恢复预案。9)服务水平协议(SLA)要求和规定。10)容量和使用模式。11)数据归档、保留规则和相关归档文件。12)清洗标准。13)数据共享规则和协议。14)技术人员的角色、职责和联系信息。</font> <font color =green>P325</font>

==问题==
==表名、表定义和描述、字段名、字段描述、数据模型、物理数据模型、错误日志、容量和使用模式、数据标准、清洗标准分别属于什么类型元数据?==

2.3 ISO/IEC 11179 元数据注册标准

ISO的元数据注册标准ISO/IEC 11179中提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。<font color =green>P325</font>

标准由以下几部分组成: <font color =green>P325</font>

  • 第1部分:数据元素生成和标准化框架。
  • 第2部分:数据元数据分类。
  • 第3部分:数据元素的基本属性。
  • 第4部分:数据定义的形成规则和指南。
  • 第5部分:数据元素的命名和识别原则。
  • 第6部分:数据元素的注册

2.4 非结构化数据的元数据

从本质上来说,所有数据都是有一定结构的,但并非所有数据都是以行、列的形式在我们熟悉的关系型数据库中进行记录的。任何不在数据库或数据文件中的数据(包括文档或其他介质)都被认为是非结构化数据。<font color=red>元数据对非结构化数据的管理来说可能更为重要。</font> <font color =green>P326</font>
==例如:图书馆,目录卡片中元数据的主要用途是找到所需材料,而不用在意其格式。==

非结构化数据的元数据包括: <font color =green>P326</font>

  • <font color=red>描述元数据</font>,如目录信息和同义关键字;
  • <font color=red>结构元数据</font>,如标签、字段结构、特定格式;
  • <font color=red>管理元数据</font>,如来源、更新计划、访问权限和导航信息;
  • <font color=red>书目元数据</font>,如图书馆目录条目;
  • <font color=red>记录元数据</font>,如保留策略;
  • <font color=red>保存元数据</font>,如存储、归档条件和保存规则。

2.5 元数据来源

元数据通常是作为应用程序处理的副产品而不是最终产品创建的(它不是为消费而创造的)。
大多数操作元数据是在处理数据时生成的。
可以从数据库对象中收集大部分技术元数据
可以对现有系统中的数据进行<font color=red>逆向工程</font>,并从<font color=red>现有数据字典</font>、模型和流程文档中收集业务元数据(Loshin,2001;Aiken,1995),但这样做是有风险的,最大的风险在于一开始不知道在开发和细化这些定义时需要花费多少精力。
最好是有意识地重新定义而不是简单地接受现有定义。定义的确定需要时间和正确的技能(如写作和辅导技能),这就是业务元数据的开发需要专职岗位的原因。
管理数据库所需的大部分技术元数据和使用数据所需的业务元数据,可以作为项目工作的一部分进行收集和开发。
定义良好的业务元数据可以在不同的项目中重复使用,并促进在不同数据集的业务概念得到一致理解。
为元数据本身而创建元数据很少能行得通。 <font color =green>P326</font>

元数据来源: <font color=green>P327- 330</font>

  1. 应用程序中元数据存储库
    指存储元数据的物理表,常内置于建模工具、BI 工具和其他应用程序中。

  2. 业务术语表
    业务术语表(Business Glossary)的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系。
    要满足以下三类人: 1)业务用户。2)数据管理专员。3)技术用户。
    不建议打印术语表, 因它的内容不是静态的。

  3. 商务智能工具
    商务智能工具生成与商务智能设计相关的各类元数据,包括概述信息、类、对象、衍生信息和计算的项、过滤器、报表、报表字段、报表展现、报表用户、报表发布频率和报表发布渠道。

  4. 配置管理工具
    配置管理工具或数据库(CMDB)提供了管理和维护与IT资产、它们之间的关系以及资产的合同细节相关的元数据的功能。

  5. 数据字典
    数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。数据字典可用于管理数据模型中每个元素的名称、描述、结构、特征、存储要求、默认值、关系、唯一性和其他属性。

  6. 数据集成工具
    这些工具能够从各种源加载数据,通过分组、修正、重新格式化、连接、筛选或其他操作对加载的数据进行操作,然后生成输出数据。
    数据集成工具提供了应用程序接口(API),允许外部元数据存储库提取血缘关系信息和临时文件元数据。

  7. 数据库管理和系统目录
    数据库目录是元数据的重要来源,它们描述了数据库的内容、信息大小、软件版本、部署状态、网络正常运行时间、基础架构正常运行时间、可用性,以及许多其他操作元数据属性。

  8. 数据映射管理工具
    映射管理工具用于项目的分析和设计阶段,它将需求转换为映射规范,然后由数据集成工具直接使用或由开发人员用来生成数据集成代码。
    通常也存储在整个企业的 Excel 文档中。

  9. 数据质量工具
    数据质量工具通过验证规则来评估数据质量,其中的大多数工具提供了与其他元数据存储库交换质量分数和质量概况的功能,使元数据存储库能够将质量分数附加到相关的物理资产上。

  10. 字典和目录
    数据字典和术语表包含有关术语、表和字段的详细信息,但是字典或目录包含有关组织内数据的系统、源和位置的信息。

  11. 事件消息工具
    事件消息工具在不同系统之间移动数据,需要大量的元数据,并生成描述此移动的元数据。

  12. 建模工具和存储库
    数据建模工具用于构建各种类型的数据模型:概念模型、逻辑模型和物理模型。这些工具生成与应用程序或系统模型设计相关的元数据, 如主题域、逻辑实体、逻辑属性、实体和属性关系、父类型和子类型、表、字段、索引、主键和外键、完整性约束以及模型中其他类型的属性。

  13. 参考数据库
    参考数据记录各种类型的枚举数据(值域)的业务价值和描述,在系统中的上下文中使用。

  14. 服务注册
    服务注册是从面向服务的架构(SOA)角度管理和存储有关服务和服务终端的技术信息,如定义、接口、操作、输入和输出参数、制度、版本和示例使用场景。

  15. 其他元数据存储
    特定格式的清单,如事件注册表、源列表或接口、代码集、词典、时空模式、空间参考、数字地理数据集的分发存储库的存储库和业务规则。

业务术语表应包含业务术语属性,例如: 1)术语名称、定义、缩写或简称,以及任何同义词。2)负责管理与术语相关的数据的业务部门和/或应用程序。3)维护术语的人员姓名和更新日期。4)术语的分类或分类间的关联关系(业务功能关联)。5)需要解决的冲突定义、问题的性质、行动时间表。6)常见的误解。7)支持定义的算法。8)血缘。9)支持该术语的官方或权威数据来源。

2.6 元数据架构的类型

与其他形式的数据一样,<font color=red>元数据也有生命周期</font>。从概念上讲,所有元数据管理解决方案都包含与元数据生命周期相对应的架构层次.

元数据生命周期:创建和采集。存储。集成。交付。使用。控制和管理。

元数据架构的类型:

  1. 集中式元数据架构。集中式元数据架构由单一的元数据存储库组成, 包含来自各种不同源的元数据副本。<font color=green>P330</font> 见下图12-3

  2. 分布式元数据架构。一个完全分布式的架构中维护了一个单一的接入点。元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构<font color=red>没有持久化的存储库</font>。<font color=green>P331</font> 见下图12-4

  3. 混合式元数据架构。 元数据仍直接从源系统移动到集中式存储库,但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及来通过自手工来源添加的元数据。<font color=red>单向</font>。

  1. 双向元数据架构。允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。

集中式存储库的优点: <font color=green>P330</font>
1)<font color=red>高可用性</font>,因为它独立于源系统。2)<font color=red>快速</font>的元数据检索,因为存储库 和查询功能在一起。3)解决了数据库结构问题,使其<font color=red>不受第三方</font>或商业系统特有属性的<font color=red>影响</font>。 4)抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,<font color=red>提高</font>了元数据的<font color=red>质量</font>。

集中式存储库的缺点: <font color=green>P330</font>
1)必须使用<font color=red>复杂的流程</font>确保元数据源头中的更改能够快速同步到存储库中。2)维护集中式存储库的<font color=red>成本可能很高</font>。3)元数据的抽取可能<font color=red>需要自定义模块</font>或中间件。4)验证和维护自定义代码会<font color=red>增加对内部 IT 人员</font>和软件供应商的<font color=red>要求</font>。

分布式元数据架构的优点: <font color=green>P331</font>
1)元数据总是<font color=red>尽可能保持最新且有效</font>,因为它是从其数据源中直接检索的。2)查询是分布式的,可能会<font color=red>提高响应和处理的效率</font>。3)来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地<font color=red>减少了实施和维护所需的工作量</font>。4)自动化元数据查询处理的<font color=red>开发可能更简单</font>,只需要很少的人工干预。5)<font color=red>减少了批处理</font>, 没有元数据复制或同步过程。

分布式元数据架构的缺点: <font color=green>P331</font>
1)<font color=red>无法支持用户自定义或手动 插入的元数据项</font>,因为没有存储库可以放置这些添加项。2)<font color=red>需要通过统一的</font>、标准化的展示方式呈现来自不同系统的元数据。3)查询功能<font color=red>受源系统可用性的影响</font>。4)元数据的<font color=red>质量完全取决于源系统</font>。

混合元数据架构: <font color=green>P332</font>
结合了集中式和分布式架构的特性,元数据直接从源系统移动到集中式存储库, 但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及来通过自手工来源添加的元数据。
该架构得益于从源头近乎实时地检索元数据和扩充元数据,可在需要时最有效地满足用户需求。

双向元数据架构: <font color=green>P332</font>
它允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。<font color=red>强制对源的更新</font>。
这种方法显然存在各种挑战。该设计强制元数据存储库包含最新版本的元数据源,并强制对源的更改管理,必须系统地捕获变更,然后加以解决;必须构建和维护附加的一系列处理接口,以将存储库的内容回写至元数据源。

3 语境关系图

3.1 定义

元数据metadata: 定义和描述其它数据的数据。(GB/T18391.1-2009 信息技术元数据注册系 统 MDR 第一部分:框架)

元数据。 元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。
元数据可以确保组织识别私有的或敏感的数据,能够管理数据的生命周期,以实现自身利益,满足合规要求,并减少风险敞口。
如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。实际上,如果没有元数据,组织可能根本无法管理其数据
技术元数据已经成为数据迁移和集成方法中不可或缺的一部分。
没有人知道关于数据一切。 <font color=green>P320</font>

在 GB/T 18391 中,元数据是定义和描述其他数据的数据。这意味着元数据是数据,当数据以这种 方式来使用时,就成了元数据。只有在特定的环境下、出于特定的目的或从特定的角度来看,数据才成为元数据。 <font color=green>P320</font>

数据用作元数据的环境、目的或角度的集合称为语境。因此,在一定的语境中,元数据就是关于数据的数据。由于元数据也是数据,因此,元数据可以存储在数据库中,并通过模型来组织。一些模型仅适用于特定的应用,其他一些则更通用。

描述元数据的模型常常被称为元模型。在这个意义上,GB/T 18391. 3 介绍的概念模型是一个元模型。

元数据: 包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、 软件代码、技术基础设施),数据与概念之间的联系(关系)

如果没有可靠的元数据,组织就不知道拥有什么数据,数据表示什么,数据来自何处,它如何在系统中流转,谁有权访问它。

3.2 目标

目标包括: <font color=green>P322</font>

  • 1)记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性。
  • 2)收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异。
  • 3)确保元数据的质量、一致性、及时性和安全。
  • 4)提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据。
  • 5)推广或强制使用技术元数据标准,以实现数据交换。

指导原则: <font color=green>P323</font>

  • 1)组织承诺。将数据作为企业资产进行管理。
  • 2)战略。战略能推动需求,要与业务优先级保持一致。
  • 3)企业视角。确保未来的可扩展性。
  • 4)潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助。
  • 5)访问。 确保员工了解如何访问和使用元数据。
  • 6)质量。流程所有者应对元数据的质量负责。
  • 7)审计。 制定、实施和审核元数据标准,以简化元数据的集成和使用。
  • 8)改进。创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队。

3.3 业务驱动因素

数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于: <font color=green>P322</font>

  • 1)通过提供上下文语境和执行数据质量检查<font color=red>提高数据的可信度</font>。
  • 2)通过扩展用途<font color=red>增加战略信息</font>(如主数据)的价值。
  • 3)通过识别冗余数据和流程<font color=red>提高运营效率</font>。
  • 4)<font color=red>防止使用过时或不正确的数据</font>。
  • 5)<font color=red>减少数据的研究时间</font>。
  • 6)<font color=red>改善</font>数据使用者和IT专业人员之间的<font color=red>沟通</font>。
  • 7)创建准确的影响分析,从而<font color=red>降低项目失败的风险</font>。
  • 8)通过缩短系统开发生命周期时间<font color=red>缩短产品上市时间</font>。
  • 9)通过全面记录数据背景、历史和来源<font color=red>降低</font>培训成本和员工<font color=red>流动的影响</font>。
  • 10)<font color=red>满足监管合规</font>。

元数据管理不善容易导致以下问题: <font color=green>P322</font>

  • 1)<font color=red>冗余</font>的数据和数据管理<font color=red>流程</font>。
  • 2)<font color=red>重复和冗余的字典</font>、存储库和其他元数据存储。
  • 3)<font color=red>不一致</font>的数据元素定义和与数据滥用的相关<font color=red>风险</font>。
  • 4)<font color=red>元数据</font>的不同版本相互矛盾且<font color=red>有冲突</font>,降低了数据使用者的信心。
  • 5)<font color=red>怀疑</font>元数据和数据的<font color=red>可靠性</font>。

3.4 输入

3.5 活动

活动: 1.<font color=red>定义元数据战略</font>。2.<font color=red>理解元数据需求</font>。(1)业务人员需求。(2)技术人员需求。3.<font color=red>定义元数据架构</font>。(1)创建元模型。(2)应用元数据标准。(3)管理元数据存储。4.<font color=red>创建和维护元数据</font>。(1)整合元数据。(2)分发和传递元数据。5.<font color=red>查询、报告和分析元数据</font>。

【活动 1】定义元数据战略。

元数据战略描述组织应如何管理其自身元数据,以及元数据从当前状态到未来状态的实施线路。<font color=green>P333</font>
元数据战略包括<font color=red>定义组织元数据架构蓝图和与战略目标匹配的实施步骤</font>。 <font color=green>P333</font>
步骤包括: <font color=green>P333</font>

  1. 启动元数据战略计划。目的是保证团队可以定义出短期和长期目标。关键利益相关方应参与计划制订。
  2. 组织关键利益相关方的访谈。通过对业务人员和技术人员的访谈,可以得到元数据战略的基础知识。
  3. 评估现有的元数据资源和信息架构。评估确定解决元数据和系统问题的难度,在访谈和文档复查中识别这些问题。在此阶段,对关键IT员工做进一步访谈,审查系统架构、数据模型等文档。
  4. 开发未来的元数据架构。优化和确认未来愿景,开发可以满足管理现阶段元数据环境长期目标的元数据架构。这个阶段必须考虑战略组成部分,如组织架构、与数据治理所需的管理人员一致、受控的元数据架构、元数据交付架构、技术架构和安全架构。
  5. 制订分阶段的实施计划。从访谈和数据分析中验证、整合、确定结果的优先级,发布元数据战略,并定义分阶段的、可以从当前状态迈向未来受控的元数据环境的实施方法。

【活动 2】理解元数据需求

元数据需求的具体内容是:<font color=red>需要哪些元数据和哪种详细级别</font>。==例如,需要采集表和字段的物理名称和逻辑名称。== <font color=green>P333</font>

元数据综合解决方案由以下功能需求点组成: <font color=green>P333</font>

  1. <font color=red>更新频次</font>。元数据属性和属性集更新的频率。
  2. <font color=red>同步情况</font>。数据源头变化后的更新时间。
  3. <font color=red>历史信息</font>。是否需要保留元数据的历史版本。
  4. <font color=red>访问权限</font>。通过特定的用户界面功能,谁可以访问元数据,如何访问。
  5. <font color=red>存储结构</font>。元数据如何通过建模来存储。
  6. <font color=red>集成要求</font>。元数据从不同数据源的整合程度,整合的规则。
  7. <font color=red>运维要求</font>。更新元数据的处理过程和规则(记录日志和提交申请)。
  8. <font color=red>管理要求</font>。管理元数据的角色和职责。
  9. <font color=red>质量要求</font>。元数据质量需求。
  10. <font color=red>安全要求</font>。一些元数据不应公开,因为会泄露某些高度保密数据的信息。

【活动 3】定义元数据架构

元数据管理系统必须具有从不同数据源采集元数据的能力,设计架构时应确保可以扫描不同元数据源和定期地更新元数据存储库,系统必须支持手工更新元数据、请求元数据、查询元数据和被不同用户组查询。 <font color=green>P334</font>

内容:

  1. 创建元模型。<font color=green>P335</font>
    创建一个元数据存储库的数据模型,也叫元模型,是定义元数据战略和理解业务需求后的第一个设计步骤。可以根据需求开发不同级别的元模型;高级别的概念模型描述了系统之间的关系,低级别的元模型细化了各个属性,描述了模型组成元素和处理过程。

  2. 应用元数据标准。 <font color=green>P335</font>
    数据治理活动应监督元数据的标准遵从情况。

  1. 管理元数据存储。 <font color=green>P335</font>
    实施控制活动以管理元数据环境。存储库的控制活动是由元数据专家执行的元数据迁移和存储库更新的控制。
    这些活动本质是可管理的、可监控的、可报告的、可预警的、有作业日志的,同时可以解决各种已实施的元数据存储库环境的各种问题

元数据存储库的控制活动: <font color=green>P335</font>
1)作业调度和监控。2)加载统计分析。3)备份、恢复、归档、消 除。4)配置修改。5)性能调优。6)查询统计分析。7)查询和报表生成。8)安全管理。

元数据质量控制活动: <font color=green>P336</font>
1)质量保证,质量控制。2)数据更新频率——与时间表匹配。3)缺失元数据报告。4)未更新的元数据报告。

元数据管理活动: <font color=green>P336</font>
1)加载、探测、导入和标记数据资产。2)记录与源的映射和迁移关系。3) 记录版本。4)用户界面管理。5)连接数据集的元数据维护——为 NOSQL 提供支持。6)数据 与对内数据采集建立连接——自定义连接和作业元数据。7)外部数据源和订阅源的许可。8)数 据增强元数据,如关联 GIS。

元数据培训活动: <font color=green>P336</font>
1)教育和培训用户和数据专员。2)生成和分析管理指标。3)对控制活动、 查询、报告进行培训。

【活动 4】创建和维护元数据

<font color=red>好的元数据不是偶然产生的,而是认真计划的结果。</font>

元数据管理的几个一般原则描述了管理元数据质量的方法: <font color=green>P336</font>

  1. 责任(Accountability)。认识到元数据通常通过现有流程产生(数据建模,SDLC,业务流程定义),因此流程的执行者对元数据的质量负责。
  2. 标准(Standards)。制定、执行和审计元数据标准,简化集成过程,并且适用。
  3. 改进(Improvement)。建立反馈机制保障用户可以将不准确或已过时的元数据通知元数据管理团队。
  1. 整合元数据 <font color=green>P337</font>
    从整个企业范围收集和整合元数据,包括从企业外部。存储库应将提取的技术元数据与相关的业务、流程和管理元数据集成在一起。

    对元数据存储库的扫描的方式:

    1. <font color=red>专用接口</font>。采用单步方式,扫描程序从来源系统中采集元数据,直接调 用特定格式的装载程序,将元数据加载到元数据存储中。
    2. <font color=red>半专用接口</font>。采用两步方式,扫描 程序从来源系统中采集元数据,并输出到特定格式的数据文件中。架构更加开放。

    扫描程序产生和使用多种类型文件:

    1. 控制文件。包含数据模型的数据源结构信息。
    2. 重用文件。包含管理装载流程的重用规则信息。
    3. 日志文件。在流程的每一阶段、每次扫描或抽取操 作生成的日志。
    4. 临时和备份文件。在流程中使用或做追溯流程所使用的文件。
  2. 分发和传递元数据 <font color=green>P337</font>
    元数据可传递给数据消费者和需要处理元数据的应用或工具。
    传递机制包括:

    1. 元数据内部网站,提供浏览、搜索、查询、报告和分析功能。
    2. 报告、术语表和其他文档。
    3. 数据仓库、数据集市和 BI(商务智能)工具。
    4. 建模 和软件开发工具。
    5. 消息传送和事务。
    6. Web 服务和应用程序接口(API)。
    7. 外部组织接口方案(如供应链解决方案)。

【活动 5】查询、报告和分析元数据

元数据存储库应具有前端应用程序,并支持查询和获取功能,从而满足以上各类数据资产管理的需要。提供给业务用户的应用界面和功能与提供给技术用户和开发人员的界面和功能有所不同,后者可能会包括有助于新功能开发(如变更影响分析)或有助于解决数据仓库和商务智能项目中数据定义问题(如数据血缘关系报告)的功能。 <font color=green>P338</font>

3.6 交付成果

3.7 技术驱动因素

3.8 方法

【方法 1】数据血缘和影响分析

发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移的信息。基于程序编码的当前版本的血缘称为“实现态血缘(As Implemented Lineage)”。相反, 映射规范文档中描述的血缘称为“设计态血缘(As Designed Lineage)” <font color=green>P340</font>

数据血缘创建的局限性在于元数据管理系统的覆盖范围。<font color=green>P340</font>

元数据管理系统通过可以提供数据血缘详情的工具导入“实现态血缘”,并从无法自动抽取的“设计态血缘”文件中获取实施细节加以补充。将数据血缘的各个部分连接起来的过程称为“拼接”,“拼接”结果是一个表示数据从原始位置(数据源或记录系统)转移到最终位置的全景视图。 <font color=green>P340</font>

为了成功实现业务目标,需要计划和设计一个策略来发现和采集元数据到元数据存储库。要想成功发现数据血缘关系,需要兼顾业务焦点和技术焦点。 <font color=green>P340</font>
业务焦点: 根据业务优先级寻找数据元的血缘关系。 从目标位置回溯到具体数据起源的源系统。
技术焦点: 从源系统开始识别直接相关的数据使用者, 依次识别间接的数据使用者,直到识别出所有系统为止。

==数据元的血缘关系示例,业务数据元“所有延期订单金额”物理实现下的字段“zz total”依赖其他三个数据元:“单位成本(分)”的字段“yy unit cost”、“税金”的字段“yy tax”、“延期订单数联”的字段“yy qty”。== 见下图12-6

【方法 2】应用于大数据采集的元数据

数据湖中的成功数据管理依赖于管好元数据。 <font color=green>P340</font>

元数据标签应在采集时应用于数据,然后元数据可以用来识别可访问的数据湖中的数据内容。大部分采集引擎采集数据后进行数据剖析, 数据剖析可以识别出数据域、数据关系和数据质量问题,并打上标签。采集数据时,识别到敏感或隐私(如个人身份信息,PPI)数据时应添加元数据标签。==例如,数据科学家会添加关于置信度、文本标识符和表示集群行为的代码。==

3.9 工具

<font color=red>管理元数据的主要工具是元数据存储库。</font>元数据存储库包括整合层和手工更新的接口。处理和使用元数据的工具集成到元数据存储库中作为元数据来源。 <font color=green>P339</font>

元数据管理工具提供了在集中位置(存储库)管理元数据的功能。元数据可以手动输入,也可以通过专门的连接器从其他各种源中提取。元数据存储库还提供与其他系统交换元数据的功能。 <font color=green>P339</font>

3.10 度量指标

  1. 元数据存储库完整性。理想覆盖率与实际覆盖率比较。
  2. 元数据管理成熟度。能力成熟度模型(CMM-DMM)评估。
  3. 专职人员配备。评估承诺。
  4. 元数据使用情况。
  5. 业 务术语活动。使用、更新、定义解析、覆盖范围。
  6. 主数据服务数据遵从性。
  7. 元数据文档质 量。手动+自动。
  8. 元数据存储库可用性。正常运行时间、处理时间(批处理和查询)。 <font color=green>P343</font>

4 实施指南

使用渐进的步骤建设实施受控的元数据管理环境,可减少组织的风险,并便于用户接受。使用开源的关系型数据库平台来实施元数据存储,可以应对实施存储库项目开始时可能无法预料的各种控制和接口问题。 <font color=green>P341</font>
存储库的内容在设计上应该是通用的,而不只是反映源系统的数据库设计。<font color=green>P341</font>

就绪评估/风险评估。 <font color=green>P341</font>

  1. 要有坚定的元数据战略。
  2. 应让所有人意识到不管理元数据的风险。
  3. 对元数据相关活动现状进行正式的成熟度评估。

元数据战略是整体数据治理战略的一部分,是实现有效数据治理的第一步。元数据评估应该通过对现有元数据的客观检查来进行,包括对关键利益相关方的访谈。风险评估的交付成果包括元数据战略和实施线路。 <font color=green>P341</font>

评估缺失高质量元数据可能带来的影响: <font color=green>P341</font>

  1. 因不正确、不完整和不合理的假设或缺乏数据内容 的知识导致<font color=red>错误判断</font>。
  2. 暴露敏感数据,使客户或员工面临风险,<font color=red>影响商业信誉和导致法律纠 纷</font>。
  3. 如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了。(<font color=red>隐性知识未显性化</font>)。

组织准备情况的评估解决方法: <font color=green>P341</font>

  • 对元数据相关活动现状进行正式的成熟度评估,评估内容应包括重要的业务数据元、可用的元数据术语表、数据血缘、数据剖析和数据质量管理过程、主数据管理成熟度和其他方面。
  • 评估的结果与业务优先级一致,将为改进元数据管理实践的战略方法提供基础。正式的评估结果也为业务案例、赞助和筹集资金提供基础。

组织文件变革。 <font color=green>P341</font>

  • 元数据从非托管环境转移到托管环境需要工作和规范,而即使大多数人已认识到可靠元数据的价值,也不容易做到这一点。
  • 需要寻找一个合适的案例试点,在这个案例中,控制元数据将为公司的数据带来显而易见的质量效益,从具体的业务相关案例中构建论点。
  • 企业数据治理战略的实现需要<font color=red>高级管理层的支持和参与</font>,要求业务人员和技术人员能够以跨职能的方式紧密合作。

5 元数据管理治理

1 过程控制

数据管理团队应负责定义标准和管理元数据的状态变化(通常使用工作流或协作软件),同时可以负责组织内的质量提升活动、培训计划或实际培训活动。 <font color=green>P342</font>

需要将元数据战略集成到软件开发的生命周期中,确保变更过的元数据及时得到收集,以确保元数据保持最新。<font color=green>P342</font>

2 元数据解决方案的文档

元数据的主目录包括当前作用域中的源和目标。 <font color=green>P342</font>

元数据资源面向技术及业务用户,可发布到用户社区,并可作为“元数据在哪里”的指引, 告知用户能够满足他们的以下需求: <font color=green>P342</font>

  1. 元数据管理实施状态。
  2. 源和目标元数据存储。
  3. 元数据更新的调度计划信息。
  4. 留存和保持的版本。
  5. 内容。
  6. 质量声明或警告(如缺失的值)。
  7. 记录系统和其他数据源状态(如数据内容历史加载、删除或更新标志)。
  8. 相关的工具、架构和人员。
  9. 敏感信息和数据源的移除或脱敏策略。

3 元数据标准和指南

为了支持共享信息的最佳使用,需要共享公共元数据,这催生了许多专业领域的标准。 <font color=green>P342</font>

指导方针包括模板、相关示例、有关预期输入和更新的培训,以及“不使用术语定义术语”等规则和完整性声明。针对不同类型的元数据开发不同的模板,部分由所选的元数据解决方案驱动。持续监测指导方针的有效性和必要更新是治理责任。 <font color=green>P342</font>

6 关键架构图

  1. 图12-1 元数据管理语境关系图


    图12-1 元数据管理语境关系图
  2. 表12-2 三种元数据的示例


    表12-2 三种元数据的示例
  3. 图12-3 集中式元数据架构


    图12-3 集中式元数据架构
  4. 图12-4 分布式元数据架构


    图12-4 分布式元数据架构
  5. 图12-5 混合元数据架构


    图12-5 混合元数据架构
  6. 图12-6 数据元血缘关系流向图示例


    图12-6 数据元血缘关系流向图示例
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容