知识图谱学习笔记(一)——知识图谱基础

知识图谱基础

一、知识图谱的基本概念

知识库是一个有向图,包含:

    1.多关系数据(multi-relational data)

    2.节点:实体/概念

    3.边:关系/属性

    4.关系事实=(head, relation, tail)

KG的基本概念

Node

    领域(Domain/Topic)

    概念(Concept)

    实例/实体(Entity/Objects/Instance)

    值(Value)

        1.实体(Entity)eg:(姚明,出生地,上海市)

        2.字符串(String)eg:(背景大学,学术传统,兼容并包、思想自由)

        3.数字(Number)eg:(姚明,体重,140公斤)

        4.时间(Date)eg:(姚明,出生年月,1981年)

        5.枚举(Enumerate)eg:(姚明,性别,男)

        6. ……

边:关系

Type:类型

SubClass:子类

relation:关系

Property、Attribute:属性

(旺财, Is-A,狗)

(狗,Is-A,哺乳动物)

(旺财,朋友,小白)

(旺财,颜色,黄色)

关系

关系分为Taxonomic Relation 和 Non-taxonomic Relation。

Taxonomic Relation:is-a/Hypernym-Hyponym

Non-taxonomic Relation:概念之间的相互作用

1.部分整体关系(meoronymy)

2.属性(attribute)

3.论旨角色(Thematic roles)

4.领属(possession)

5.因果(Casuality)

6.……

高阶三元组

与时间、地点相关

((美国,总统,特朗普),开始时间,2017)

事件

二、知识图谱的生命周期

在构建和应用知识图谱的过程中有几个重要的环节,包括知识体系构建、知识获取、知识融合、知识存储、知识推理和知识应用等。

2.1 知识体系构建

知识体系构建,也称为知识建模,其核心是构建一个本体对目标知识进行描述。

目前,知识图谱中的数据采用RDF数据模型进行描述。在知识图谱中,RDF中的“资源”称为实体或者实体的属性值,“谓词”称为关系或者属性,“陈述”指的是RDF三元组,一个三元组描述的是两个实体之间的关系或者一个实体的属性。

输入:

1.领域

2.应用场景

输出:领域知识本体

1.领域实体类别体系

2.实体属性

3.领域语义关系

4.语义关系之间的关系

2.2 知识获取

知识获取的目标是从海量的文本数据中通过知识抽取的方式获取知识。数据的主要来源有各种形式的结构化数据、半结构化数据和非结构化文本数据(纯文本)。学术界主要集中在非结构化文本中实体的识别和实体之间关系的抽取,涉及自然语言分析和处理技术,难度较大。

结构化数据

结构化数据主要来自于企业内部数据库中的私有数据,也可以是网页中看到的表格数据,数据质量比较高。

半结构化数据

半结构化数据指那些不能够通过固定的模板直接获得的结构化数据

非结构化文本数据指的是纯文本,即自然语言文本数据。需要通过信息抽取技术获得实体关系三元组。

2.3 知识集成

知识集成,也称为知识融合,是对不同来源、不同语言和不同结构的只是进行融合,从而对已有只是图谱进行补充、更新和去重。

2.4 知识存储/查询/推理

知识图谱的存储方式主要由两种形式:RDF格式存储和图数据库。RDF格式存储就是以三元组的形式存储数据,如Google开放的Freebase知识图谱。这种存储方式使得三元组的搜索效率较低。图数据库的方法比RDF数据库更加通用,目前典型的开源数据库是Neo4j,这种图数据库的有点是具有完善的图查询语言,支持大多数的图挖掘算法,缺点是数据更新慢,大节点的处理开销大。

目前只是推理的研究主要集中在针对知识图谱中缺失关系的补足,即挖掘两个实体之间隐含的语义关系。主要采用以下两种方法:①基于传统逻辑规则的方法进行推理,其研究热点在于如何自动学习推理规则,以及如何解决推理过程中的规则冲突问题。②基于表示学习的推理,即采用学习的方式,将传统推理过程转化为基于分布式表示的语义向量相似度计算任务。

三、代表性知识图谱

人工构建:

1. Cyc https://www.cyc.com/platform/researchcyc

2. WordNet https://wordnet.princeton.edu/

基于维基百科:

1.DBPedia:https://wiki.dbpedia.org/

2.YAGO:YAGO

3.Freebase:https://developers.google.com/freebase/

4.WikiTaxonomy:http://www.hits.org/english/research/nlp/download/wiki

5.BabelNet:https://babelnet.org/

开方知识抽取:

1.KnowltAll:https://openie.allenai.org/

2.NELL:http://rtw.ml.cmu.edu/rtw/

3.Probase:Probase

企业知识图谱:

1.百度知心,搜狗知立方

2.Google KG,MS sotori

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容