什么是知识图谱-知识图谱是什么

2022.1.28更新
今天又读了大量的资料。维基的词条也更新了,认为目前的流行词知识图谱(并非谷歌知识图谱产品)本身就没有明确的定义,同时和语义网络(semantic network不是语义网semantic web)的边界最近越来越模糊。语义网和知识图谱的区别
很多篇写两者相同点不同点的文章读下来推荐这篇。


标题乍一看有一些绕,但这恰好能代表了我研究生阶段的学习历程。研究生三年的研究方向是知识图谱,在这知识图谱作为“顶流”名词的三年里,知识图谱相关的报告、文章层出不穷。2021年3月27日我参加了DataFun举办的知识图谱峰会,这次的专家很多是来自大厂一线业务和一线研究之间,切切实实在脚踏实地做事的工程师和研究者,解答了我的疑惑和我不敢定论的一些事实。可以说直到临近毕业的一刻我才真正有自信解释好这两个问题。

如果在互联网上搜索知识图谱,可以找到很多图文并茂的讲者报告。现在看来,我可以自创一个词称这些报告为“科幻现实主义”:比起史玉柱之流还是多了“现实”的成分,可又实在是玷污了科学这个词所以称为“科幻”更合适。比较讽刺的是这些讲者背景介绍往往还一个比一个唬人。

我愿把“语义网络”称作“科幻现实主义知识图谱”的原罪。不是说“语义网络”这一个领域有问题,而是人的问题。相信搜索知识图谱的大家可能看到过这样类似的图片:
从语义网络到知识图谱

语义网络是知识图谱的前身之一这一点并没有错,我也承认这个事实。我们先来看看知识图谱在搜索引擎的热度变化:


google trends与百度指数

在中文搜索引擎使用的是“知识图谱”关键词,在英文搜索引擎使用了“knowledge graph”关键词。可以看到英文搜索引擎中,这个词的热度实在2012年5月,之后热度保持平稳比2012年之前略高。而国内的搜索引擎从17年底开始热度节节飙升。

虽然常说互联网没有记忆,但是接下来就着科学严谨刨根问底的精神,在互联网上搜索知识图谱的痕迹。最终得到的几个关键时间节点如下:


知识图谱时间节点

相关的时间节点都标注上了出处。可以看到,其实这几个时间节点和语义网络都没有关系,而语义网络相关的资料中也完全没有出现过知识图谱的字样。语义网络和知识图谱的确有一定的相关性,但是相关性不等于因果性,更何况从数据和记录上来看这两个名词是没有交集的。如果抱着在语义网络领域的成就,往知识图谱领域套,那就未免有些违背科学精神了。说句题外话科学精神对我来说代表着严谨务实,认知来源于实践的价值取向。往近的说是将理论方法用于实践,提高生产力,为国家发展服务,往远的说就是解放全人类。

回到什么是知识图谱这个问题,我觉得这个问题最完美的答案在Introducing the Knowledge Graph: things, not strings。这篇文章是谷歌官方发布的,也正是这篇之后知识图谱的概念大火。从谷歌趋势(google trends)中可以查到,2012年5月这篇文章发布后搜索量达到了巅峰,随后趋势较为平缓。而百度指数在12年左右则较为平缓,在17年底18年初的时候开始猛增。18年也是我研究生入学的时候,那个时候热度被炒上了天我猜测和国务院17年发布的文件有关。

对于Introducing the Knowledge Graph: things, not strings这篇文章,看完可以发现,这篇文章非常质朴,没有和你扯什么建模世界万物的纽带,没有人工智能的基石,没有感知智能向认知智能跨越的重要一步,没有图灵的野望,没有....你懂的。但是这篇文章确确实实能告诉你,知识图谱是什么。或者说这篇文章的第一个单词“Search”,就告诉了你知识图谱是用来做什么的。

既然解答了“什么是知识图谱”,那标题的后半段,“知识图谱是什么”该怎么回答呢?我不妨尝试给出我的解释。为什么我说这两个问题可以代表我研究生阶段的学习历程,因为我认为这两个问题代表了科学研究绕不开的两个重要环节:掌握事物的本质原理,随后从本质出发进行新领域的探索研究。只有在真正掌握了“什么是知识图谱”之后,才能本着科学精神,对“知识图谱是什么”,知识图谱未来能有哪些应用场景、理论研究进行展望。让人惋惜的是大部分现状是大家都感一个时髦,学个名词蹭个热度,“人工智能大数据区块链知识图谱。在未掌握真正这类“流量术语”本质原理的情况下就开始对前景进行设想画饼,一些学科领军人物更是带头如此,在我看来是对科学的不尊重违背信仰。而且这样的行为严重影响了整个科研-工程转化流程,容易形成劣币驱逐良币的环境对于客户群体也是严重的误导,会将下游技术需求市场将来的发展带到坑里。这也是现在论文灌水严重的罪魁祸首之一。

所以对于“知识图谱是什么”这个问题,从身份出发如果是想用知识图谱解决实际问题的,那知识图谱就是一个结构化的技术手段,可以多阅读谷歌相关的技术文章;如果是要用知识图谱发表论文的,可以选择多读一些知识表示学习的论文,开山之作是2013年的TransE虽然在知识图谱峰会上很多工程师都表示这个技术目前没有应用意义(论文里都会画饼说有很大的研究应用前景,实际应用场景中有更简单的方法就可以解决)。至于知识图谱未来的前景如何,我的看法是知识图谱这个概念其实很早就有了而新的技术与新的环境给了知识图谱很多新的意义。就像椭圆相关性质定理被发现后的几百年才第一次在天文学领域有实际应用意义(按照从欧几里得到开普勒算的画得有1500年了)。知识图谱虽然不是一个基础理论学科,但在将来新的环境下与新的技术结合,说不定就能真正达成从感知智能走向认知智能。当然这一切的过程还需靠你我的实践努力,而不是纸上谈兵开空头支票。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容