3、知识图谱构建技术

知识图谱的构建需要应用到多方面信息处理技术。知识抽取从多种数据源中提取知识并存入知识图谱,是构建大规模知识图谱的基础。知识融合可以解决不同知识图谱的异构问题,通过知识融合,能够使得不同数据源的异构知识图谱相互联通、相互操作,从而提高知识图谱的质量。知识计算是知识图谱的主要输出能力,其中,知识推理是最重要的能力之一,其为知识精细化工作以及辅助决策的实现方式。本节根据知识图谱的体系架构详细介绍知识抽取、知识融合、知识推理的相关研究。

1、知识抽取

知识抽取主要分为命名实体识别关系抽取 2 个方面。按照其发展历程,主要可分为 3 类方法,分别
是基于传统规则和模板、基于统计机器学习、基于深度学习的知识抽取。

实体关系抽取的发展历程

1.1 命名实体识别

1.2 关系抽取

1.2.1 基于传统规则和模板的方法

传统的关系抽取主要采用人工编写规则和模板的方法来实现,一般是由特定领域的专家手动编写模板来匹配关系,这种基于规则和模板的方法会耗费领域专家大量的时间和精力,且可移植性较差,无法适应数据的变化。

1.2.2 基于传统机器学习的方法

对于关系抽取而言,传统的机器学习方法可以分为有监督、半监督和无监督 3 类。有监督的关系抽取算法受到标注数据集的制约,其准确率受到标注数据质量和数量的影响,并且不能拓展新关系;学术界开始转向研究半监督和无监督的学习方法,这 2 种方法对标注数据的依赖性较弱,适合缺少语料数据的关系抽取任务。无监督学习具有领域无关性,非常适合大规模开放领域的关系抽取。基于传统机器学习的方法缺点同样明显,该类方法存在特征提取误差传播问题,因此,研究人员开始将深度学习和实体关系抽取相结合。

1.2.3 基于深度学习的方法

基于深度学习的关系抽取方法改善了特征提取误差传播的问题,是近些年的研究热点。本文将基于深度学习的关系抽取方法分为流水线方法和实体关系联合抽取方法两类。

流水线方法

流水线方法分 2 步抽取信息,先抽取实体再抽取关系,最后整合三元组输出。流水线方法一般采用CNN、RNN及其改进模型进行关系抽取,由于它们不需要手动构造特征并且预测精度很高,因此得到广泛关注和应用。

实体关系联合抽取方法

传统的流水线方法先抽取实体再抽取关系,其存在错误传播的问题,实体识别模块的效果直接影响关系抽取模块的抽取效果。另外,实体识别模块中抽取的实体对不一定完全存在关系,没有关系的实体对会带来冗余信息,影响分类效果。联合抽取方法将实体识别和关系抽取模型相融合,直接在文本中抽取实体关系三元组。联合抽取方法可分为 2 种,分别是基于参数共享和基于序列标注的联合抽取方法。

2、知识融合

知识图谱的构建数据来源十分广泛,不同数据源之间的知识缺乏深入的关联,知识重复问题很严重。知识融合将来自不同数据源的异构化、多样化的知识在同一个框架下进行消歧、加工、整合等,达到数据、信息等多个角度的融合。知识融合的核心在于映射的生成,目前,知识融合技术可以分为本体融合和数据融合 2 个方面。

2.1 本体融合

在知识融合技术中,本体层占据着重要部分。到目前为止,研究人员已经提出了多种解决本体异构的方法,主要分为本体集成和本体映射两大类。本体集成是将多个不同数据源的异构本体集成为一个统一的本体,本体映射则是在多个本体之间建立映射规则,使信息在不同本体之间进行传递。


本体映射和本体集成

2.2 数据融合

数据方面的知识融合包括实体合并、实体对齐、实体属性融合等方面。其中,实体对齐是多源知识融合的重要部分,用于消除实体指向不一致性与冲突问题。知识图谱的对齐算法可分为 3 类,分别是成对实体对齐、局部实体对齐和全局实体对齐。
成对实体对齐。成对实体对齐方法包括基于传统概率模型和基于机器学习的实体对齐方法。利用属性相似度将实体匹配问题转换为分类问题;局部实体对齐方法引入实体属性并为其分配不同的权重,再进行加权求和计算实体的相似度;全局实体对齐全局实体对齐综合考虑多种匹配策略来判别实体相似度,包括基于相似性传播和概率模型的实体对齐方法。

3、知识推理

知识推理根据已有的实体关系信息来推断新的事实结论,从而进一步丰富知识图谱,满足上游任务的需求。本文将知识推理方法主要分为 3 种类型,分别为基于逻辑规则的推理、基于分布式特征表示的推理和基于深度学习的推理。

3.1 基于逻辑规则的推理

基于逻辑规则的推理包括谓词逻辑推理、本体推理和随机推理。

3.2 基于分布式特征表示的推理

基于分布式特征表示的推理包括基于翻译模型的知识推理基于张量分解的知识推理以及基于语义匹配模型的知识推理

3.2.1 基于翻译模型的知识推理

整合三元组周围的邻域信息,其采用对象嵌入和上下文嵌入表示实体与关系,提升了知识推理的性能。

3.2.2 基于张量分解的知识推理

在基于张量分解的知识推理中,一般将知识图谱中的实体关系三元组通过张量分解方法进行表示学习,将分解得到的向量重构为张量,元素值高于一定阈值的作为候选推理结果。

张量是一种数学概念。在深度学习和机器学习中,张量通常被用来表示多维数据。例如,一个二维张量可以表示一个图像,其中的每个元素代表图像中的一个像素;一个三维张量可以表示一系列图像,或者一个彩色图像,其中的每个元素代表图像中的一个像素和其对应的颜色通道。张量的一个重要特性是它的阶(或维度)。标量可以被视为零阶张量,向量可以被视为一阶张量,矩阵可以被视为二阶张量,以此类推。张量的阶数可以用来描述它的复杂性或者它可以表示的信息的丰富程度。

3.2.3 基于语义匹配模型的知识推理

提出 DistMult模型,其将 RESCAL 中的每一个关系向量转换为对角矩阵,从而对 RESCAL 进行简化,减少参数,在对现有知识库的推理中表现出了较好的效果。但是,无论是 RESCAL 还是 DistMult,都忽略了实体和关系的语义多样性。2017年,刘峤等认为每个关系都反映了相应实体的某些语义关系,可以通过选择性的加权来对这些关系进行表示和区分,因此,其提出统一加权模型(Unified Weighted Model,UWM)和独立加权模型(Independent Weighted Model,IWM)关系推理算法,计算效率较高。2019年,ZHANG等引入超复数来建模实体和关系,同样将关系看作超平面内头实体到尾实体的旋转,相对于 Rotate 只有一个旋转平面,QuatE 有 2 个旋转平面,其自由度及泛化能力更好。

3.3 基于深度学习的推理

目前,深度神经网络已被广泛应用于 NLP 领域,并取得了显著的成效。神经网络可以自动捕捉特征,通过非线性变换将输入数据从原始空间映射到另一个特征空间并自动学习特征表示,适用于知识推理这种抽象任务。
NTN采用双线性张量层直接将两个实体向量跨多个维度联系起来,刻画实体之间复杂的语义联系,显著提高推理性能。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容