摘要:物联网(IoT)在使用作为物联网系统一部分的各种智能互联产品(SCP)(即带有传感器和执行器的物理智能设备)所产生和交换的数据时,引入了一些技术和管理方面的挑战。除了数据的数量和异质交换和消费,最重要的是确保数据链/生命周期的每一步都能保持数据质量水平。否则,系统可能无法满足其预期功能。虽然数据质量(DQ)是一个成熟的领域,但现有的解决方案是高度异质的。因此,我们建议公司、开发人员和供应商应将他们的数据质量管理机制和人工制品与众所周知的最佳实践和标准保持一致,例如,ISO 8000-61所提供的标准。该标准实现了数据质量管理的过程方法,克服了孤立的数据质量活动的困难。本文介绍了DAQUA-MASS,一种基于ISO 8000-61的传感器网络数据质量管理的方法。该方法由四个步骤组成,符合戴明的 "计划--执行--检查--行动 "循环。
1. Introduction
物联网系统本质上是建立在从异质来源收集的数据上,其中数据生成、交换和处理的数量、种类和速度正在急剧增加。
语义物联网的趋势,它需要有方法来表示和处理预计从 "物 "中产生和在 "物 "中交换的大量原始数据。
数据的重要性:
数据是连接网络世界和物理世界的桥梁;
如果数据的质量不高,人类和其他设备的决策就可能不健全;
智能互联产品(SCP)定义: 在其生命周期内为自组织嵌入不同(智能)环境而设计和制造的实体(有形物体、软件或服务),通过改进连接提供更好的简单性和开放性。
为什么使用国际标准?
如ISO/IEC 25000系列处理系统和软件质量要求和评估(SQuaRE)[13],或ISO 8000-60系列关于数据质量管理过程的最佳实践。
这种标准可以在物联网背景下定制和使用,不仅带来了标准化解决方案的好处,而且使合作伙伴之间能够更好地沟通。
物联网环境中的问题和系统故障的数量也会减少,所有的利益相关者都能保持一致。
由于异质性的减少,更容易在全球范围内应用数据质量解决方案。
已有研究:
没有按照现有的DQ相关标准以整体的方式考虑DQ的管理。
本文的方法:为了使物联网中的DQ研究与国际标准保持一致。
DAQUA-MASS:
SCP环境中管理数据质量的方法,它考虑了一些DQ最佳实践,以提高SCP环境中的数据质量,与ISO 8000-61保持一致。
由于物联网系统固有的分布式性质,使用这样的标准将使各个组织与相同的基础保持一致,最终以无缝的方式工作,这无疑将提高业务流程的性能。
2. Data Quality Challenges in SCP Environments
(1)Cook等人,智能环境是一个小世界,各种智能 设备不断工作,使居民的生活更加舒适。
(2)Mühlhäuser,SCP通过改善连接,通过上下文感知、语义自我描述、主动行为、多模态自然界面、人工智能规划和机器学习等手段提供智能行动。
(3)SCP有三个主要的核心部分:物理、智能和连接部分。
(4)物联网和SCP:物联网只是反映了越来越多的 的SCP,并强调它们所代表的新机会。物联网,可以涉及人或物,是一种信息交流的手段。使SCP本质上不同的不是互联网,而是 "物 "的性质的变化[19]。
(5)SCP包括处理器、传感器、软件和连接,允许数据在产品和环境之间交换。
(6)本文的重点是这类传感器产生的数据,以及数据质量水平不足可能会影响数据的处理,而SCP的智能和连接部分不在本文的讨论范围之内。SCP可以通过三个不同的层次[9]连接成大型的复杂网络:采集层、处理层和利用层。
采集层指的是传感器数据采集系统,在这个系统中,传感器、原始(或感应)和预处理的数据被管理。这是本文的主要重点。
处理层涉及数据处理和管理中心产生的数据,其中能源、存储和分析能力更为重要。
利用层涉及交付的数据(或后处理的数据)的利用,例如,通过地理信息系统或与其他服务或应用相结合。
数据种类:sensor data,device data,general data,IoT data
影响SCP数据质量的因素:❌表示受影响较大。
Tilak等人[23]提供了一个传感器误差的分类法。这些错误直接关系到采集层的不同 采集层中的数据质量问题。所提到的分类法区分了以下六种类型的数据传感器错误(见表2)。还有网络错误,如表3.
DQ问题可以表现为一些DQ特性的退化,这些特性在不同的环境中特别重要.
(1)根据ISO/IEC 25012[25],这些DQ特性是准确性和完整性,以及[9]中提出的可靠性和通信可靠性。它也与利用层有关,包括关于ISO/IEC 25012[25]的可用性,加上[9]中定义的及时性和充分性。
(2)DQ特性旨在管理内部数据质量。管理内部数据质量的主要目标是避免不一致的数据并在处理层保持传感器数据的时间性。这些特征是根据ISO/IEC 25012[25]的一致性和货币性以及[9]中提出的波动性。
3. Related Work
3.1. Sensor Data Quality
与SCP和物联网环境中的数据质量有关的问题。
(1)Karkouch等人[6]提出了物联网中DQ的最新调查。这项调查提出了与物联网有关的危及DQ的因素及其对各种DQ特性的影响。此外,还讨论了DQ问题的表现形式(并确定了其症状),以及它们在物联网背景下的影响。
(2)Gonçalo等人在[8]中提供了一个类似的调查,解决了在使用无线传感器网络时无法确保可靠监测所需的DQ水平的问题。这项工作特别注意理解哪些故障会影响传感器,它们如何影响信息的质量以及如何改进和量化这种质量。
(3)Gutiérrez Rodríguez和Servigne在[9]中也分析了传感器网络中的数据错误,特别是在环境监测系统中。在这篇论文中,作者用一种专门为环境监测应用和用户提供数据质量信息的方法来解决来自传感器的数据的不确定性问题。
(4)Badawy等人[26]将参数和非参数信号处理以及机器学习算法结合起来,实现了传感器数据质量控制的自动化,它可以识别传感器数据中那些足够可靠的部分,以便进一步分析,并抛弃无用的数据。
传感器数据流中的DQ管理。
(1)Klein等人[10]提出了一种质量驱动的减载方法,该方法对数据流进行筛选,以发现并丢弃质量不高的数据项。因此,在数据过载等不利条件下,数据流处理结果的DQ被最大化了。
(2)Campbell等人[15]主张采用基于图形和统计总结的自动质量保证和质量控制程序,以审查和跟踪环境传感器流中数据的来源。
其他作品则从不同角度关注数据管理。
(1)Al-Ruithe等人[27]详细介绍了物联网-云计算融合环境中的角色、责任和政策,并为数据治理和安全提供了一个通用框架。
(2)Qin等人[14]从数据管理的角度对大规模传感器环境的应用提出了非功能需求,以满足数据收集的功能需求之外的基本及时性、可靠性和准确性需求。
缺点:
(1)没有解决如何使数据质量管理的最佳实践在整个组织中可用(例如,制度化)。
(2)在物联网的情况下,这种愿景特别重要,因为SCP操作可以在属于不同部门甚至组织的不同网络中执行。
3.2. Data Quality Methodologies Comparison
Lee等人[28]提出了AIMQ这个方法论,McGilvray[29]提供了一个规划和管理信息质量的实用方法。与Lee等人提出的方法论相比,McGilvray的方法论提供了一种更加务实和实用的方法来实现组织内DQ的理想状态。然而,这种方法论仍然取决于应用的领域。ISO/TS 8000-150:2011 [30]"规定了主数据质量管理的基本原则,以及对实施、数据交换和来源的要求"。该标准构成了一个信息框架,确定了DQ管理的流程。这个框架可以与质量管理系统标准结合使用,也可以独立于这些标准使用,例如,ISO 9001 [31]。
Batini等人[32]提供了一个关于数据质量的不同方法的文献回顾评估和改进的不同方法。这些评论中包括的大多数方法和技术不能被认为是DQ管理方法,因为它们没有以整体的方式考虑所有的管理问题。相反,这些方法中的大多数都集中在孤立的DQ评估或改进上。与上述评论类似,Woodall等人[33]对最新的DQ评估和改进方法进行了分类。除了这些方法之外,在SCP操作领域缺乏评估和改进DQ的综合方法,也缺乏其基础数据。
最近的标准ISO 8000-61[17]提供了一套标准指南,用于以整体方式管理DQ。它可以为不同的领域量身定做。然而,它的主要目的不是作为DQ管理的方法论本身,而是仅仅提供了一个过程参考模型。在这个意义上,该标准更多的是描述性的,而不是操作性的,这使得它不能开箱即用。根据这一标准,本文提出了DAQUA-MASS方法,以处理SCP环境中的DQ问题。DAQUA-MASS方法的主要贡献在于,它采用了描述管理DQ的操作方法的标准最佳实践(如ISO 8000-61的流程中所描述的),并将这些方法应用于SCP环境的特定领域,特别是与传感器有关的数据。
4. DAQUA-Model: A Data Quality Model
(1)数据质量的概念,遵循PDCA循环。
(2)PDCA循环的核心是识别数据质量模型(DQModel),该模型由适合该问题的几个数据质量特征组成,用于识别和表示环境中所需要的数据质量要求.
(3)我们提出的DQ模型是ISO/IEC 25012[25]中介绍的DQ模型的一个专门化。事实上,该标准的范围部分明确指出,它 "不包括由嵌入式设备或实时传感器产生的、不为进一步处理或历史目的而保留的数据" [25]。因此,为了补充该标准,我们在本文中就如何在SCP环境中具体使用ISO/IEC 25012提供一些指导。
(4)DQ模型关注的是作为信息系统一部分的数据的质量,并定义了 为人类和系统使用的目标数据(即组织决定通过该模型分析和验证的数据)定义质量特征。这个模型将质量属性分为十五个特征,并考虑了三个角度:固有的、依赖系统的和两者共同的(见表4中的交叉点)
(5)我们建议将DQ特征与表2中的一些 表2中显示的传感器数据错误。这些关系表明一些故障的传感器产生的错误数据可能导致或影响一些DQ特征.。用'P'和'S'来区分这些关系,分别表示传感器错误对DQ特性的主要或次要影响。
(6)介绍并总结了15个DQ特性.
从数据质量管理的角度来看,不要犯这样的错误,即把功能失调的传感器的读数与数据质量水平不足混为一谈,即使功能失调的传感器可以产生不具备适当质量水平的数据(即。不符合数据使用的目的):做出这种区分的原因是,修复由于功能失调的传感器造成的错误需要首先修复传感器;另一方面,如果可以保证根本原因不是建立在功能失调的传感器上,而是建立在数据本身上,那么,为了修复数据质量错误,应该使用数据质量管理技术,因为不应该忽视数据的含义。对数据质量特征的描述可以在以下段落中找到。
Accuracy.
Completeness.
Consistency
Credibility
Currentness.
Accessibility
Compliance
Confidentiality
Efficiency
Precision
Traceability
Understandability
Availability
Portability
Recoverability
尽管我们的DQ模型最初考虑了ISO/IEC 25012中定义的所有DQ特性。 可能有必要对所选择的DQ特征进行定制,以使其适应特定的SCP环境。这种定制可能取决于具体的组织,以及它如何将该方法应用到具体的SCP环境中。定制后的模型将符合具有特定SCP环境的组织的数据质量模型。
5. DAQUA-MASS: A Data Quality Management Methodology for Data Sensors
本节介绍DAQUA-MASS,一种基于ISO 8000-61的数据传感器的数据质量管理方法。该方法中提供的步骤是基于ISO 8000-61[17]引入的一些流程."计划-执行-检查-行动 ".
PDCA隐含着一个闭环,标志着这个过程是迭代的,每个迭代的最后阶段为开始新的迭代提供反馈。许多公认的模型,如物联网中的信息融合[37]或JDL模型[38],都是闭环。通过这种方式,它们可以自我改进,以调整动态世界,使性能最大化。物联网是一个动态系统,因此,数据质量管理要适应方法论的每一个循环的变化。每个循环都是为了适应可能出现的变化和新的质量需求。该方法的设计使整个循环根据组织的目标、需求和资源而反复执行。PDCA循环将有助于提高数据质量的有效性和效率,由七个步骤组成,分为以下四个阶段。
(1)计划阶段确立了战略和必要的数据质量改进实施计划,以按照数据要求交付成果。
(2)在执行阶段,数据质量改进的实施计划被执行。
(3)在检查阶段,根据战略和数据要求对数据质量和流程表现进行监测,并报告结果以验证纠正措施的效率;
(4)在行动阶段,采取行动以持续改善流程性能。
图2总结了整个四个阶段的步骤流程。每一个步骤都有一个所有步骤的定义都提供了一个表格,描述了该步骤中每项活动产生的所有预期输入和输出,以及一个RACIQ矩阵(R-负责(工作);A-负责;C-咨询;I-知情;Q-质量审查员),表明参与该活动的利益相关者的角色。我们认为以下的利益相关者名单参与了本方法的应用,每个步骤都有一般的描述和一系列的具体活动。
-首席信息官(CIO)。它是一个企业中最高级别的管理人员,负责支持企业目标的传统信息技术和计算机系统。
-首席数据官(CDO)。它是一个企业官员,负责企业范围内的数据治理,并通过数据处理、分析、数据挖掘、信息交易和其他手段,将数据作为一种资产加以利用。CIO和CDO处于执行层面。
-数据治理经理(DGM)。他或她正在监督企业数据治理项目的发展,并负责架构某些解决方案和框架。这是在战略层面上。
- SCP领域的数据质量管理人(SCP DQ Steward)。它是SCP环境领域的战术层面的DQ管家,通过考虑其在DQ中的影响。
-数据质量管理人(DQ Steward)。它负责利用组织的数据质量管理流程,确保数据元素--包括内容和元数据--的适用性。数据管家有一个专家角色,包含了流程、政策、指导方针和责任,以符合DQ政策和程序来管理组织的整个数据。这是在操作层面。
- SCP技术架构师(SCP Arch)。SCP架构师是一个SCP(以及一般的物联网)专家,他做出高层次的设计选择并规定技术标准,包括SCP技术标准、工具和平台。
5.1. The Plan Phase
数据质量规划阶段确立了数据要求和数据质量的目标。 创建计划以实现这些目标,并评估计划的性能。这些计划平衡了当前的数据质量水平、成本、资源和整个组织的能力,以评估传感器数据的数据质量。这一阶段的启动是基于利益相关者的需求和期望,或在数据质量改进过程中执行的过程改进的反馈(行动阶段)。本阶段执行的预期结果是充分收集传感器数据的完整计划化。这包括需求管理、数据的政策定义、设备的生命周期管理,重要的是要强调政策的定义,以保留原始的未经篡改的数据和输入数据的所有版本。表5总结了这个阶段的输入、输出和责任分配。随后,介绍了以相应的ISO 8000-61流程为基础的步骤描述。在这一点上,需要提醒的是,该方法的范围是在传感器数据上(见图1)。
5.1.1. P1. Characterization of the Current State of the Sensor Data Contexts
5.1.2. P2. Assessment of the Current State of the Levels of Data Quality
5.1.3. P3. Data Quality Enhancement Plan Definition
5.2. The Do Phase
D1. Execution of the Data Quality Improvement Plan
5.3. The Check Phase
5.3.1. C1. Testing the Efficiency of the Corrective Actions
5.3.2. C2. Review of Data Quality Issues
5.4. The Act Phase
A1. Data Quality Issues Prevention
6. Conclusions
然而,文献中提出的方法有两个主要缺点。一方面,这些建议没有考虑到SCP环境的性质和影响DQ在这种情况下必须被处理的具体因素。另一方面,这些方法没有考虑现有的DQ管理标准,这些标准还没有为物联网,更具体地说,为SCP环境量身定做。
作为一项主要贡献,我们在本文中提供了一个传感器数据的数据质量管理方法,名为DAQUA-MASS,基于ISO 8000-61。该方法的结构是根据PDCA循环的持续改进。该方法由7个步骤组成,分为几个活动。方法论中的每项活动的输入和输出产品都已经确定。值得强调的是,在传感器数据的质量管理中,确定了参与的各种角色。