知识图谱基础
一、知识图谱的基本概念
知识库是一个有向图,包含:
1.多关系数据(multi-relational data)
2.节点:实体/概念
3.边:关系/属性
4.关系事实=(head, relation, tail)
KG的基本概念
Node:
领域(Domain/Topic)
概念(Concept)
实例/实体(Entity/Objects/Instance)
值(Value)
1.实体(Entity)eg:(姚明,出生地,上海市)
2.字符串(String)eg:(背景大学,学术传统,兼容并包、思想自由)
3.数字(Number)eg:(姚明,体重,140公斤)
4.时间(Date)eg:(姚明,出生年月,1981年)
5.枚举(Enumerate)eg:(姚明,性别,男)
6. ……
边:关系
Type:类型
SubClass:子类
relation:关系
Property、Attribute:属性
(旺财, Is-A,狗)
(狗,Is-A,哺乳动物)
(旺财,朋友,小白)
(旺财,颜色,黄色)
关系
关系分为Taxonomic Relation 和 Non-taxonomic Relation。
Taxonomic Relation:is-a/Hypernym-Hyponym
Non-taxonomic Relation:概念之间的相互作用
1.部分整体关系(meoronymy)
2.属性(attribute)
3.论旨角色(Thematic roles)
4.领属(possession)
5.因果(Casuality)
6.……
高阶三元组
与时间、地点相关
((美国,总统,特朗普),开始时间,2017)
事件
在构建和应用知识图谱的过程中有几个重要的环节,包括知识体系构建、知识获取、知识融合、知识存储、知识推理和知识应用等。
知识体系构建,也称为知识建模,其核心是构建一个本体对目标知识进行描述。
目前,知识图谱中的数据采用RDF数据模型进行描述。在知识图谱中,RDF中的“资源”称为实体或者实体的属性值,“谓词”称为关系或者属性,“陈述”指的是RDF三元组,一个三元组描述的是两个实体之间的关系或者一个实体的属性。
输入:
1.领域
2.应用场景
输出:领域知识本体
1.领域实体类别体系
2.实体属性
3.领域语义关系
4.语义关系之间的关系
知识获取的目标是从海量的文本数据中通过知识抽取的方式获取知识。数据的主要来源有各种形式的结构化数据、半结构化数据和非结构化文本数据(纯文本)。学术界主要集中在非结构化文本中实体的识别和实体之间关系的抽取,涉及自然语言分析和处理技术,难度较大。
结构化数据
结构化数据主要来自于企业内部数据库中的私有数据,也可以是网页中看到的表格数据,数据质量比较高。
半结构化数据
半结构化数据指那些不能够通过固定的模板直接获得的结构化数据
非结构化文本数据指的是纯文本,即自然语言文本数据。需要通过信息抽取技术获得实体关系三元组。
知识集成,也称为知识融合,是对不同来源、不同语言和不同结构的只是进行融合,从而对已有只是图谱进行补充、更新和去重。
知识图谱的存储方式主要由两种形式:RDF格式存储和图数据库。RDF格式存储就是以三元组的形式存储数据,如Google开放的Freebase知识图谱。这种存储方式使得三元组的搜索效率较低。图数据库的方法比RDF数据库更加通用,目前典型的开源数据库是Neo4j,这种图数据库的有点是具有完善的图查询语言,支持大多数的图挖掘算法,缺点是数据更新慢,大节点的处理开销大。
目前只是推理的研究主要集中在针对知识图谱中缺失关系的补足,即挖掘两个实体之间隐含的语义关系。主要采用以下两种方法:①基于传统逻辑规则的方法进行推理,其研究热点在于如何自动学习推理规则,以及如何解决推理过程中的规则冲突问题。②基于表示学习的推理,即采用学习的方式,将传统推理过程转化为基于分布式表示的语义向量相似度计算任务。
人工构建:
1. Cyc https://www.cyc.com/platform/researchcyc
2. WordNet https://wordnet.princeton.edu/
基于维基百科:
1.DBPedia:https://wiki.dbpedia.org/
2.YAGO:YAGO
3.Freebase:https://developers.google.com/freebase/
4.WikiTaxonomy:http://www.hits.org/english/research/nlp/download/wiki
5.BabelNet:https://babelnet.org/
开方知识抽取:
1.KnowltAll:https://openie.allenai.org/
2.NELL:http://rtw.ml.cmu.edu/rtw/
3.Probase:Probase
企业知识图谱:
1.百度知心,搜狗知立方
2.Google KG,MS sotori