建立数据仓库不是一蹴而就的。相反,数据仓库只能一次一步地进行设计和载入数据,即它是进化性的,而非革命性的。突然建立一个数据仓库的费用、需要的资源和对环境的破坏都很高,这些都表明数据仓库的建立要采用有序地反复和一次一步的方式。下面以一个例子来说明:
第1天,通晓本质上进行操作型处理的几个系统,就是指一些企业现有的系统。
第2天,对数据仓库中第一个主题领域的最初几个表载入数据,此就建立了第一个主题域。
第3天,更多的数据载入数据仓库,并且随着数据量增大,将吸引更多的用户。用户
会不断载入新的集成数据源,并在时间维度上观察数据,主题越来越多。
第4天,随着更多的数据载入数据仓库,一批存储在操作型环境的数据被适当地放入数据
仓库中。现在,我们就发现数据仓库是可以被分析处理的信息源。各种各样的DSS(decision support system)应用出现了。的确,伴随着现在存入数据仓库的数据规模增大,此时开始出现更多的用户和更多的处理请求,以致于一些用户进入数据仓库的要求和分析工作被推迟。进入数据仓库的竞争成为使用数据仓库的障碍。
第5天,部门数据库 (数据集市,或O L A P )开始兴起,各部门发现通过把数据从数据仓库输入它们自己的部门处理环境,会使它们的处理既便宜又容易。成为部门级的数据。
第6天,部门系统出现繁忙,从部门获得数据比从数据仓库获得数据更便宜、更快、更容易。很快最终用户就放弃数据仓库的细节,去进行部门级处理。
第n天,这种体系结构得到充分发展。生产系统的原始集合中只剩下操作型处理。数据仓
库具有丰富的数据,并拥有了一些数据仓库的直接用户和许多部门级数据库。因为在部门级上获得所需要的数据既容易又便宜,所以大部分 D S S分析处理都在部门级进行。
当然,从第1天到第n天的进化需要很长的时间,通常需要几年。并且在从第 1天到第n天
的演变过程中,D S S环境在不断地提高和职能化。
明白了以上的基本概念后,我自己的理解是:上面示例中描述的概念与数据中心建设架构中的ODS--DW--DM相对应,对相关的基本概念更加熟悉。
~本文为《Building the Data Warehouse, 4th Edition 》第二章第一次读书笔记