知识图谱的意义
利用知识图谱为查询词赋予丰富的语义信息,建立与现实世界实体的联系,从而帮助用户更快找到所需的信息。
知识图谱的应用
知识图谱将搜索引擎从字符串匹配推进到实体层面,可以极大地改进搜索效率和效果,为下一代搜索引擎的形态提供了巨大的想象空间。
- 查询理解。google搜索,在搜索某个单词时,根据知识图谱可以赋予单词的语义信息,搜索引擎更好滴理解用户搜索意图。从而可以展示和该查询词相关的其他信息,更好滴匹配商业广告,提高广告点击率,增加收益。
- 自动问答。知识图谱可以作为自动问答的知识库。
- 文档表示。文档表示是NLP中很多任务的基础,如文档分类、文档摘要、关键词抽取等等。经典的文档表示是VSM(Vector Space Model),将文档表示为词汇的向量,采用BOW(Bag Of Word)假设,没有考虑到文档中词汇的顺序信息,也没有考虑到词汇之间的复杂语义关系。而知识图谱的出现,为文档表示带来新希望,那就是基于只是的文档表示。一篇文章不再用一组没有语义代表词汇的字符串表示,而是由文章中的实体和关系来表示,给文档赋予了语义。最简单的基于知识图谱的文档表示方案是,用文档包含的实体及其关系组成的子图表示文档。
- google play movies & tv 应用中添加一个新功能,当用户使用安卓系统观看视频时,暂停播放,视频旁边就会自动弹出该屏幕上任务或者配乐信息。这里用到的技术应该包含图像处理和知识图谱
知识图谱的构建
数据来源主要有:
- 大规模知识库,维基百科、百度百科等,大量结构化的知识,能较高效第转化到知识图谱中
- 海量网页,但是知识较杂乱,需要通过一些自动化技术,将其抽取出来
大规模知识库
大规模数据库以词条作为基本组织单位,每个词条对应现实世界中的某个概念
知识图谱的主要技术
实体链指(Entity Linking)
为了帮助人们更好地了解网页内容,很多网站或作者会把网页中出现的实体链接到相应的知识词条上,为读者提供更详尽的背景资料。这种做法实际上将互联网网页与实体之间建立了链接关系,因此被称为实体链指。
实体链指的主要任务有两个:实体识别(Entity Recognition) 与实体消歧(Entity Disambiguation)。
实体识别:从文本中发现命名实体,最典型的包括人名、地名、机构名等三大实体。近些年,还开始尝试电影名、产品名称等更丰富的实体类型。还有研究者剔除除了对实体进行识别,还应对概念(concept)进行识别。
实体消岐:不同环境下的同一实体名称可能对应不同实体。这种一词多义,或者歧义问题普遍存在。将文档中出现的名字链接到特定的实体上,这一过程就做消岐。
实体链指不仅限于实体和实体之间,也包括实体与图像、社交媒体等数据的关联。
关系抽取(Relation Extraction)
可以将所有关系看做分类标签,把关系抽取转换为对实体对的关系分类问题。可以利用机器学习分类模型(如最大熵分类器、SVM等)构建信息抽取系统。
这种关系抽取方案的主要挑战在于缺乏标注语料。2009年斯坦福大学的研究者提出远程监督(Distant Supervision)思想,使用知识图谱中已有的三元组实例启发式地标注训练语料。
远程监督思想的假设是:每个同时包含两个实体的句子,都表述了这两个实体在知识库中的对应关系。例如,根据知识图谱中的三元组实例(苹果,创始人,乔布斯)和(苹果,CEO,库克),我们可以将以下四个包含对应实体对的句子分别标注为包含“创始人”和“CEO”关系:
远程监督方法会引入大量噪声训练样例,严重损害模型准确率。例如,对于(苹果,创始人,乔布斯)我们可以从文本中匹配以下四个句子:
在这四个句子中,前两个句子的确表明苹果与乔布斯之间的创始人关系;但是,后两个句子则并没有表达这样的关系。很明显,由于远程监督只能机械地匹配出现实体对的句子,因此会大量引入错误训练样例。
为了解决这个问题,人们提出了很多去除噪声实例的办法,来提升远程监督性能。例如,研究发现,一个正确训练实例往往位于语义一致的区域,也就是其周边的实例应当拥有相同的关系;也有研究提出利用因子图、矩阵分解等方法,建立数据内部的关联关系,有效实现降低噪声的目标。
知识推理(Knowledge Reasoning)
很多人研究如何自动挖掘相关推理规则或模式。目前主要依赖关系之间的同现情况,利用关联挖掘技术来自动发现推理规则。
利用推理规则实现关系抽取的经典方法是Path Ranking Algorithm(Lao &Cohen2010),该方法将每种不同的关系路径作为一维特征,通过在知识图谱中统计大量的关系路径构建关系分类的特征向量,建立关系分类器进行关系抽取,取得不错的抽取效果,成为近年来的关系抽取的代表方法之一。但这种基于关系的同现统计的方法,面临严重的数据稀疏问题。