数据中心是实现管理数据,并且对于数据中心在组织的现有体系结构中的“确切位置”存在很多困惑。人们通常想知道数据中心在其技术范围内如何满足其需求。
数据中心的实现方式可以多种多样,因此术语“集线器”可以根据观点和先入之见对不同的人意味着不同的事物。还有很多误解,因为技术世界充斥着大量的信息,其中许多信息是高质量和可信赖的,但经常会发生冲突,并且其中某些信息具有误导性。因此,让我们弄清楚该杂音。
首先,什么是模式?
当查看许多成功的实现以寻求最佳通用实践时,就会发现技术模式。当最佳实践的集合可以合并为可重复使用的可实施解决方案时,在与其他先前实施的解决方案不同的给定上下文中,这种模式值得在规定的情况下重复进行。“模式”和“架构”通常在技术对话中被提及,但是数据中心模式会出现,并且在不同的场景中可见。
企业整合模式
在数据中心中集成数据时,自然会出现两种主要模式。
数据集成中心
元数据目录
在数据集成中心(通常称为数据中心)中,数据来自不同的来源,以创建统一的数据视图。当您听到“客户360”或某些实体的360度视图时,人们通常会指代数据集成中心。
数据孤岛的存在是有充分原因的,有一些功能,技术上的原因,或者与安全性,地理位置或其他因素有关。但是在每个应用程序下,都有针对该应用程序的独特且复杂的数据存储。当与应用程序一起使用时,该数据源就可以很好地工作。但是,当实体需要来自各个孤岛的信息来制定业务或任务决策时,它们需要从每个系统中获取部分数据,并将它们组合到数据中心中,以在统一的上下文中提供所需的答案。
在这种情况下,数据源通常是关系系统,例如Oracle,SQL Server和DB2,但是可以而且确实包含来自文件系统的数据。数据湖;SharePoint;Office文档(人们在Excel上开展业务);信息; XML,JSON或纯文本格式的文档;来自内部和外部系统的提要;图形数据 地理空间数据;社交媒体; 图片; 元数据–您命名。
使用数据集线器:
- 数据未完全从所有源系统复制到集线器。复制的唯一数据是为业务或任务提供答案所需的数据。
记录系统不一定消失。他们经常保留记录系统。仅凭其数据不足以满足业务/任务所需的视图。 - 通过将数据从源推送到集线器,可以根据需要保持数据同步。
- 集线器中对数据的任何修改都将捕获在集线器中,因此可以对策展,未经策展和原始源数据以及出处和血统进行查询和审核。
- 数据不一定要从集线器推回到源系统。集线器通常是统一上下文的聚合器。数据移动是从源到集线器再到统一视图的下游使用者。
- 集线器中的数据可能是瞬态的。有时,数据的下游使用者是传统的数据仓库。数据集线器可用作数据的快速聚合器,比传统的ETL更快地将其清理为一致和标准化的形状。
在元数据目录(有时称为逻辑数据仓库)中,有关数据的数据聚集在中心中。它为人们提供了一种查询中心的方法,它可以知道在哪里找到他们要查找的数据,它位于哪个源系统中,和/或他们必须跟踪谁来寻求权限以获取他们所需的信息。元数据目录在拥有大量数字资产的大型媒体和出版组织中很常见。存储有关图像和视频的元数据以及有关标题,脚本,电影剧本,书籍,演员,作者,出版商,许可信息等的信息,可以使那些寻求有关特定主题信息的人找到所有相关资产,并知道在何处可以找到所寻求的信息。例如,在公共部门中,在武装部队中部署了数千个孤岛,
实际上,每个数据中心都是两者的一小部分,并且集成数据沿着从源数据到源元数据的范围分布。数据中心通常在实现方面特别关注。在这两种主要模式下,可以进行更细致的区分。
当数据中心是知识图时,数据和元数据的相同规则仍然适用。
基础架构设计(或架构)模式
数据中心可以简化基础架构设计。还有更多标签为“ Data Hub”的产品。他们提供解决方案的图片通常非常相似。
左边有许多消息来源,中间是魔术,美元符号和成功则以“洞察力”的形式飞出右边。但是,让我们仔细看看并双击所显示图片中的实际中心。
数据中心可以以单个二进制文件提供。借助可在统一的支持索引内支持多种数据模型和格式的可组合功能,工作可以专注于处理数据,而不是实现解决方案基础结构。这种类型的集线器直接进入现有体系结构并开始工作。大小和可伸缩性是一致的,因为这些功能是在单个平台中提供的,以提取,整理和交付数据。
还有其他集线器需要组装不同的组件才能创建实际的集线器。它们没有集成,并且一开始没有可用的可组合功能。在可以使用数据之前,需要努力将整个数据中心解决方案集中在一起。如果某人需要处理关系数据,文档数据和图形数据,并提供除查询之外的企业搜索功能,统一的安全性和监视,管理和母版处理功能等,则将需要多个组件。
这给架构带来了额外的复杂性,而且成本不可预测。不同的数据库和搜索引擎需要不同的索引和存储机制。不同的数据库需要不同的查询语言。将针对不同语言的查询结果聚合到一个统一的结果集中,将解决方案置于应用程序逻辑中,而不是集线器中,从而创建了另一个信息孤岛。然后是不同的安全机制,等等。从零件组装数据集线器既困难又昂贵。
数据集成和数据准备应用程序虽然具有非开发人员可以使用的精美界面,但不幸的是,如果实施不当,它们也会创建更多的数据孤岛。正确性必须在将应用程序整合在一起的代码中体现出来。编写代码以将所有组件连接在一起并提供正确的工具以与集线器交互的成本是沉没的成本,然后必须保持这一成本。
数据架构模式
在这里,我们找到了数据建模,实体定义,管道处理配置,流程等的模式,将它们分别识别并清楚地作为重点领域很重要。整本书都涉及关系数据,文档数据和图形 数据建模主题,并且随着异构数据的融合以解决新问题并为数据中心内的数据和信息产品提供新机会,还将出版更多书籍。