基于元数据驱动的ETL架构设计BI管理信息化文章中国最具影响力的企业信息化门户网和在线社区 http://articles.e-works.net.cn/BI/Article71357_1.htm
- Github项目: awesome-coder-resources:
编程/学习/阅读资源---开源项目,面试题,网站,书,博客,教程等等...
欢迎Star,欢迎围观...
ETL(Extract-Transform-Load)是数据仓库获得高质量数据的重要环节,一个设计良好、功能强大的ETL工具对于构建一个数据质量、结构良好的数据仓库有着重要意义。首先分析了传统ETL架构的局限性以及元数据管理对ETL过程的重要性,然后对传统的ETL架构进行改进,结合元数据管理思想.提出并设计了一种新的基于元数据驱动的ETL架构。结果表明,该ETL架构通过增加数据中转区并使整个ETL过程在勇数据的指导下进行,有效保证了数据仓库的数据质量,提高了数据装载的效率,减轻了数据源和目标数据库的压力,
** 2.2 ETL架构及其模块** 基于以上设计思想,可以设计出如图3所示的ETL架构。
该架构主要由元数据模块、数据中转区、数据抽取引擎、数据转换引擎、数据加载引擎以及通用数据访问接口等几部分组成,并具有元数据管理、数据抽取、数据转换、数据清洗、数据加载、异常处理等功能。 ETL架构主要模块功能详述如下: (1)数据源DS(Data Source) 各种异构数据源为数据仓库提供基础数据。可以是Oracle数据库、关系型数据库、纯文本数据、XML文件等。各种工具、连接和服务都部分依赖于数据的来源以及输出的数据内容。 (2)数据仓库(DW) 整个企业的数据中心,用于存储从业务数据中抽取出来的、经过清洗转换后的数据。数据仓库包括维表与事实表的存储,数据仓库的数据结构是根据用户分析的主题需要来组织的,将所有数据组合为对组织的单一而又有相关性的视图。 (3)通用数据访问接口 目前已有多种可选的通用数据访接口,如ODBC,OLEDB,TDBC等,其中JDBC支持跨平台、跨网络访问数据。本文采用JDBC和ODBC相结合的技术,使用SQL、PIMSQL、JAVA的完整功能,对外部数据源进行透明访问。 (4)数据抽取引擎 按照元数据提供的抽取规则,通过通用数据访问接口访问各种异构数据源,并将数据抽取成统一格式的标准数据集。 (5)数据中转区数据 中转区DSA(DATA-STADING-AREA)是数据准备的工作台。数据中转区的作用主要包括: ①可快速读取数据抽取引擎传来的大量数据;缩短数据采集时间,减少数据采集对应用系统的冲击。 ②实现对多个数据源的统一数据采集,提高了数据采集的可靠性、一致性。 ③暂时保存要加载的数据,避免了数据转换引擎对数据源的直接操作,减少了对数据源的影响。 ④在数据中转区对数据进行清洗转换操作,增加数据转换的有效性和可靠性。 (6)数据转换引擎 通过元数据提供的转换规则,对临时存储在数据中转区的数据进行转换处理,得到相应的数据结果。 (7)数据加栽引擎 按照元数据库提供的数据加载元数据,负责处理数据加载环境,通过通用数据访问接口将得到的数据加载到目标数据库中。 (8)元数据模块 包含元数据库、元数据定义模块、元数据管理模块和元数据异常处理模块。 元数据定义模块实现数据结构扫描和元数据生成的功能。元数据模块中的元数据定义工具通过查找数据库的数据字典来扫描元数据库和目标数据库的体系结构信息,如表名、字段名、字段数据类型、字段精度、主外键约束、索引等,并存储在元数据库中;在用户定义了ETL规则后,系统从元数据库中取得元数据库和目标数据库的体系结构信息,建立从元数据库到目标数据库的字段映像,再定义流程中的抽取规则、转换规则和加载规则,定义完成后把规则保存到元数据库中。 元数据管理模块对元数据库中的元数据进行修改和维护并保存到元数据库中。 元数据异常处理模块的作用是:如果ETL过程中出现异常,则将异常信息存储到元数据异常处理模块中,异常处理模块将对这些异常进行处理并按照元数据的格式要求存入元数据库中,以备元数据管理模块对其进行处理或反馈给用户处理。 (9)流程控制与用户交互界面 一个好的ETL系统需要友好的可视化工作界面。本文采用JSP网页技术来开发可视化的工作接口。JSP是一种实现普通静态HTML和动态页面输出混合编码的技术,具有系统的多平台支持、强大的可伸缩性、通过网络发布实现远程监控等特点。在运行过程中,JSP服务器访问元数据库,向客户端展示数据源类型,用户根据JSP页面向导提示,很好地控制ETL流程,逐步实现整个数据ETL工作过程。 ** 2.3 ETL元数据管理** ETL过程是构建数据仓库的基石和灵魂,而元数据又是ETL过程的“指挥中心”,一个完整的ETL过程包含许多元数据,如:业务数据源的元数据、数据仓库的元数据、抽取任务的元数据、转换规则的元数据、数据库操作元数据、异常元数据、ETL任务调度的元数据等。如何妥善地存储并管理这些与数据抽取、转换、加载等有关的所有元数据信息,已经关系到ETL过程能否顺利完成,而且影响到后期的使用和维护。 在ETL过程中元数据管理主要需要完成两方面的工作。 (1)建立元数据模型 本文采用公共数据仓库元模型CWM(Common Warehouse Metadata)。进行ETL元模型的设计。作为一个元模型,CWM已提供了建构元数据所需的语法和语义,并包含了ETL过程所需的方方面面的元数据模型,具有良好的通用性、可扩展性和可重用性。 (2)建立元数据管理系统 采用前人提出的CWM元模型,并在此基础上完成了ETL元数据管理系统的框架设计如图4所示。图中ETL元数据管理系统主要包含以下几个模块:
①元数据模型。这个模块主要定义了数据仓库的物理模 ②数据加载转换规。定义了向数据仓库中导入数据时所使用的规则和方法,用脚本语言来实现。 ③映射关系。建立了业务模型和数据仓库中数据物理模型的映射。 ④自然语言查询。用户可以用一种自然语言来实现查询,实现元数据管理的智能化。 该元数据管理系统通过人机交互,根据元模型、ETL规则、映射以及查询模块,可以方便地实现元数据信息的存储、修改、查询和管理。3 比较讨论 由前文可知,传统的ETL架梅的优点是结构简单、易于控制,但缺点也显而易见:在传统的ETL柒构中,数据的转换是在数据中心的数据库上进行,由于数据中心要处理多个数据源的数据,这些数据的转换会给数据中心服务器造成很大的压力,同时降低了数据载入到数据中心的效率。 改进后的ETL架构的优点在于:①加入数据中转区,将数据抽取、转换和加载分割开。②将抽取到的大批量数据先放入缓冲区即数据中转区中,再通过转换服务把临时存储的数据进行转换清洗,然后装入到目标数据仓库中。这样明显提高了数据装载的效率,大大降低了数据源和目标数据库的压力。 此外,元数据的管理也是本文研究重点。改进的ETL架构中对元数据进行管理,使ETL过程能在元数据的指导和控制下进行,保证了ETL的过程质量。4 小 结 数据仓库是构建高效决策支持系统的支撑平台,而将多种异构数据资源整合迁移到数据仓库是构建数据仓库过程中最复杂、最重要的工作,ETL系统的目的就是使得这个工作变得便捷和高效。本文从实践出发,对传统的ETL架构进行改进,提出并设计了基于元数据管理的ETL架构。由于整个ETL过程都在元数据的控制下进行,实现以元数据为中心、元数据管理和驱动的ETL过程,其功能易于扩展,具有很强的灵活性和适用性。