什么是知识图谱,我们可以把它理解成一张由知识点相互连接而成的语义网络。
任何一种网络都是由节点和节点关系构成。为了直观理解这个概念,拿小孩子玩的磁力棒举例,节点是钢珠,节点关系是磁力棒。
很多的钢珠(节点)和磁力棒(关系)相互关联,就构成了一张网络
在知识图谱中,什么是节点,什么是节点关系?
如图1所示,人物、作品、地点、数值、身高等都可以作为知识图谱中的节点,我们称这些节点为实体。
实体可以由若干个属性表示,例如,人物这类实体有生日、身高、妻子等属性。电影实体有导演、演员、制片国家、上映日期等。
通过实体的属性可以将不同的实体建立关联关系,例如:
刘德华 (实体)-- 妻子(属性) -> 朱丽倩(另一个实体)
刘德华 -- 电影作品 -> 无间道
无间道 -- 制片国家/地区 -> 中国香港
现在读者应该对知识图谱有了直观的概念了。问题来了,为啥要有这么个东西?它产生的背景是什么,是要解决啥问题?
从1990年底web诞生到现在,万维网经过20多年的发展,现在对大家来说已经习以为常了。万维网也是一种网络,构成万维网的节点是一个个的网页,网页之间通过超链接建立关联关系。拜万维网这种简单、开放的技术所赐,人类的信息获取能力有了巨大的飞跃。在万维网基础上诞生了现代的搜索引擎技术,人们通过关键字就能快速的找到相关网页,然后再从一堆网页候选结果中找寻自己真正想要的答案。
随着移动互联网的发展,人们对搜索的期望更高了一阶,为什么不给我更精确的答案?
移动手机的屏幕很小,没有那么多的空间展示那么多的搜索结果,用户也没有耐心再一个个打开网页,寻找答案;
另外,更多新的搜索形态诸如语音搜索、拍照搜索、人机对话等不断产生并快速演化,用户同样希望搜索引擎能够结合着自身喜好、地理位置、时间点等给出更精确的回答。
要想更精准的满足用户需求,搜索引擎就不能只是存储网页文档,而是要通过各种方式,能够识别出网页中出现的实体以及实体属性,并将它们纳入到知识图谱中。当用户发起搜索时,能够根据知识图谱已知的知识点,准确理解用户意图,并给出最精准的回答。
下一篇,Google的知识图谱