《知识图谱》理解

知识图谱的意义

利用知识图谱为查询词赋予丰富的语义信息，建立与现实世界实体的联系，从而帮助用户更快找到所需的信息。

知识图谱的应用

知识图谱将搜索引擎从字符串匹配推进到实体层面，可以极大地改进搜索效率和效果，为下一代搜索引擎的形态提供了巨大的想象空间。

查询理解。google搜索，在搜索某个单词时，根据知识图谱可以赋予单词的语义信息，搜索引擎更好滴理解用户搜索意图。从而可以展示和该查询词相关的其他信息，更好滴匹配商业广告，提高广告点击率，增加收益。
自动问答。知识图谱可以作为自动问答的知识库。
文档表示。文档表示是NLP中很多任务的基础，如文档分类、文档摘要、关键词抽取等等。经典的文档表示是VSM(Vector Space Model)，将文档表示为词汇的向量，采用BOW(Bag Of Word)假设，没有考虑到文档中词汇的顺序信息，也没有考虑到词汇之间的复杂语义关系。而知识图谱的出现，为文档表示带来新希望，那就是基于只是的文档表示。一篇文章不再用一组没有语义代表词汇的字符串表示，而是由文章中的实体和关系来表示，给文档赋予了语义。最简单的基于知识图谱的文档表示方案是，用文档包含的实体及其关系组成的子图表示文档。
google play movies & tv 应用中添加一个新功能，当用户使用安卓系统观看视频时，暂停播放，视频旁边就会自动弹出该屏幕上任务或者配乐信息。这里用到的技术应该包含图像处理和知识图谱

知识图谱的构建

数据来源主要有：

大规模知识库，维基百科、百度百科等，大量结构化的知识，能较高效第转化到知识图谱中
海量网页，但是知识较杂乱，需要通过一些自动化技术，将其抽取出来

大规模知识库

大规模数据库以词条作为基本组织单位，每个词条对应现实世界中的某个概念

知识图谱的主要技术

实体链指(Entity Linking)

为了帮助人们更好地了解网页内容，很多网站或作者会把网页中出现的实体链接到相应的知识词条上，为读者提供更详尽的背景资料。这种做法实际上将互联网网页与实体之间建立了链接关系，因此被称为实体链指。

实体链指的主要任务有两个：实体识别(Entity Recognition) 与实体消歧(Entity Disambiguation)。

实体识别：从文本中发现命名实体，最典型的包括人名、地名、机构名等三大实体。近些年，还开始尝试电影名、产品名称等更丰富的实体类型。还有研究者剔除除了对实体进行识别，还应对概念（concept）进行识别。

实体消岐：不同环境下的同一实体名称可能对应不同实体。这种一词多义，或者歧义问题普遍存在。将文档中出现的名字链接到特定的实体上，这一过程就做消岐。

实体链指不仅限于实体和实体之间，也包括实体与图像、社交媒体等数据的关联。

关系抽取(Relation Extraction)

可以将所有关系看做分类标签，把关系抽取转换为对实体对的关系分类问题。可以利用机器学习分类模型（如最大熵分类器、SVM等）构建信息抽取系统。
这种关系抽取方案的主要挑战在于缺乏标注语料。2009年斯坦福大学的研究者提出远程监督（Distant Supervision）思想，使用知识图谱中已有的三元组实例启发式地标注训练语料。

远程监督思想的假设是：每个同时包含两个实体的句子，都表述了这两个实体在知识库中的对应关系。例如，根据知识图谱中的三元组实例（苹果，创始人，乔布斯）和（苹果，CEO，库克），我们可以将以下四个包含对应实体对的句子分别标注为包含“创始人”和“CEO”关系：

Paste_Image.png

远程监督方法会引入大量噪声训练样例，严重损害模型准确率。例如，对于（苹果，创始人，乔布斯）我们可以从文本中匹配以下四个句子：

Paste_Image.png

在这四个句子中，前两个句子的确表明苹果与乔布斯之间的创始人关系；但是，后两个句子则并没有表达这样的关系。很明显，由于远程监督只能机械地匹配出现实体对的句子，因此会大量引入错误训练样例。

为了解决这个问题，人们提出了很多去除噪声实例的办法，来提升远程监督性能。例如，研究发现，一个正确训练实例往往位于语义一致的区域，也就是其周边的实例应当拥有相同的关系；也有研究提出利用因子图、矩阵分解等方法，建立数据内部的关联关系，有效实现降低噪声的目标。

知识推理(Knowledge Reasoning)

很多人研究如何自动挖掘相关推理规则或模式。目前主要依赖关系之间的同现情况，利用关联挖掘技术来自动发现推理规则。

利用推理规则实现关系抽取的经典方法是Path Ranking Algorithm（Lao &Cohen2010），该方法将每种不同的关系路径作为一维特征，通过在知识图谱中统计大量的关系路径构建关系分类的特征向量，建立关系分类器进行关系抽取，取得不错的抽取效果，成为近年来的关系抽取的代表方法之一。但这种基于关系的同现统计的方法，面临严重的数据稀疏问题。

参考文献

http://blog.sina.com.cn/s/blog_574a437f0102w2bk.html

最后编辑于：2017.12.08 07:49:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342