第五部分 常识——人工智能打破意义障碍的关键
15 知识、抽象和类比,赋予人工智能核心常识
自20世纪50年代以来,人工智能领域的研究探索了很多让人类思想的关键方面,如核心直觉知识、抽象与做类比等,融入机器智能的方法,以使得人工智能系统能够真正理解它们所遇到的情境。
让计算机具备核心直觉知识
在人工智能发展的早期阶段,
- 机器学习和神经网络还尚未在该领域占主导地位,
- 人工智能研究人员还在人工地对程序执行任务所需的规则和知识编码,
- 对他们来说,通过“内在建构”的方法来捕获足够的人类常识以在机器中实现人类水平的智能,看起来是完全合理的。
坚持为机器人工编写常识的最著名和持续时间最久的是道格拉斯·雷纳特(Douglas Lenat)的“Cyc”项目。
- 雷纳特得出了一个结论:要想令人工智能实现真正进步,就需要让机器具备常识。
- 因此,他决定创建一个庞大的关于世界的事实和逻辑规则的集合,并且使程序能够使用这些逻辑规则来推断出它们所需要的事实。
- 1984年,雷纳特放弃了他的学术职位,创办了一家名为“Cycorp”的公司来实现这一目标。
- “Cyc”这一名字意指唤醒世界的“百科全书”(encyclopedia),但与我们所熟知的百科全书不同,雷纳特的目标是让Cyc涵盖人类拥有的所有不成文的知识,或者至少涵盖足以使人工智能系统在视觉、语言、规划、推理和其他领域中达到人类水平的知识。
- Cyc是符号人工智能系统——一个关于特定实体或一般概念的论断的集合,使用一种基于逻辑的计算机语言编写而成。
- Cyc的论断由Cycorp的员工手动编码,或由系统从现有的论断出发,通过逻辑推理编码到集合中。那么究竟需要多少论断才能获得人类的常识呢?在2015年的一次讲座中,雷纳特称目前Cyc中的论断数量为1 500万,并猜测说:“我们目前大概拥有了最终所需的论断数量的5%左右。”
- 核心理念:智能可通过在一个足够广泛的显性知识集合上运行人类编码的规则来获取。在当今由深度学习主导的人工智能领域内,Cyc是仅存的大规模符号人工智能的成果之一。
有没有这样一种可能:只要付出足够多的时间和努力,Cycorp的工程师就真的能成功地获取全部或足够多的人类常识,不管这个“足够多”具体是多少?我对此保持怀疑。比如,很多处于我们潜意识里的知识,我们甚至不知道自己拥有这些知识,或者说常识,但是它们是我们人类所共有的,而且是在任何地方都没有记载的知识。这包括我们在物理学、生物学和心理学上的许多核心直觉知识,这些知识是所有我们关于世界的更广泛的知识的基础。如果你没有有意识地认识到自己知道什么,你就不能成为向一台计算机明确地提供这些知识的专家。
我们的常识是由抽象和类比支配的,如果没有这些能力,我们所谓的常识就不可能存在。我认为:Cyc无法通过其大量事实组成的集合和一般逻辑推理来获得与人类拥有的抽象和类比能力相类似的技能。
到目前为止,Cyc还没有对人工智能的主流研究产生太大的影响。此外,一些人工智能研究人员尖锐地批评了这一项目。例如,华盛顿大学的人工智能教授佩德罗·多明戈斯(Pedro Domingos)评价Cyc是“人工智能历史上最臭名昭著的失败案例”;麻省理工学院的机器人专家罗德尼·布鲁克斯稍微友善那么一点点,他说:“尽管Cyc是一次英勇的尝试,但它并未使得人工智能系统能够掌握对世界哪怕是一丁点儿简单的理解。”
当深度学习开始展示其一系列非凡的成功时,不管是人工智能领域的内行还是外行,大家都乐观地认为我们即将实现通用的、人类水平的人工智能了。
然而,正如我在本书中反复强调的那样,随着深度学习系统的应用愈加广泛,其智能正逐渐露出“破绽”。
即便是最成功的系统,也无法在其狭窄的专业领域之外进行良好的泛化、形成抽象概念或者学会因果关系。
此外,它们经常会犯一些不像人类会犯的错误,以及在对抗样本上表现出的脆弱性都表明:它们并不真正理解我们教给它们的概念。
关于是否可以用更多的数据或更深的网络来弥补这些差距,还是说有某些更基本的东西被遗失了,人们尚未达成一致意见。
人工智能领域再一次越来越多地讨论关于赋予机器常识的重要性。
美国国防部高级研究计划局公布了为人工智能常识研究提供大量资助的计划,计划中写道:“当前的机器推理仍然是狭隘且高度专业化的,大范围、常识性的机器推理仍然是难以达到的。这项资助计划将创建更类似人类的知识表征,例如,基于感知的表征,从而使得机器能够对物理世界和时空现象进行常识性推理。”
形成抽象,理想化的愿景
“建构抽象”是1956年达特茅斯人工智能计划中列出的人工智能的关键能力之一。然而,使机器形成类似于人类的概念化抽象能力仍然是一个悬而未决的问题。
俄罗斯计算机科学家米哈伊尔·邦加德(Mikhail Bongard)在1967年出版了一本名为《模式识别》(Pattern Recognition)的俄文书。这本书描述的是邦加德关于一个类似感知器的视觉识别系统的提案,但该书中最具影响力的部分却是它的附录,其中邦加德为人工智能程序提供了100个谜题作为挑战。
每个问题由12个方框组成:左右两侧各6个。每个问题左侧的6个方框举例说明其具有相同的某一个概念;右侧的6个方框举例说明了与之相关的另一个概念,这两个概念可以完美地区分这两个集合,问题的关键在于找到这两个概念。
邦加德精心设计了这些谜题,使得它们的解决方案要求人工智能系统具备与人类在现实世界中所需的同样的抽象和类比能力。在一个邦加德问题中,你可以将12个方框中的每一个视为一个微型的、理想化的情境:一个展示了不同的对象、属性及其关系的情境。左侧6个方框表示的情境具有一个共性(例如,大);右侧6个方框表示的情境具有一个与之相对的共性(例如,小)。并且在邦加德问题中,识别一种情境的本质有时是很微妙的,正如在现实生活中一样。就如心理学家罗伯特·弗伦奇(Robert French)所说的,抽象和类比都在于感知共性的微妙之处。
为发现这种微妙的共性,你需要确定情境中的哪些属性是相关的,而哪些可以忽略掉。我们人类是如何快速地识别相关属性的呢?我们怎么才能让机器做同样的事情?
在某些问题中,一个人工智能系统要弄清楚什么才能算作一个概念可能并不容易,
- 问题84中其相关对象由更小的对象(圆圈)组成
- 问题98中,对象甚至被伪装了:人类很容易看出来这些是什么图案,但对机器而言却很难,因为机器很难区分前景和背景。
鉴于ConvNets在对象分类上的表现如此出色,那么,我们是否可以通过训练这样一个网络来解决邦加德问题呢?你可以假设将一个邦加德问题建构为ConvNets的一种分类问题,左侧的6个方框可以被视为类别1中的训练样本,而右侧的6个方框是类别2中的训练样本。现在给系统一个新的测试样本,它应该被归为类别1还是类别2呢?
一个明显的障碍是:一组只有12个训练样本,这个样本量对训练一个ConvNet来说远远不够,即便是1 200个可能也不够。邦加德的疑问是:我们人类只用12个样本就能轻松识别相关概念,一个ConvNets需要多少训练数据才能学会解决一个邦加德问题呢?尽管还没有人系统地研究过如何使用ConvNets来解决邦加德问题,但一组研究人员使用类似的图像,测试了最新的ConvNets在“相同vs不同”任务上的表现。测试中,并非使用这12个训练图像,而是分别使用20 000个类别1(方框中的图形相同)和类别2(方框中的图形不同)的样本对ConvNets进行训练。训练后,再让每个ConvNets在10 000个新样本上进行测试,这些新样本都是自动生成的。训练过的ConvNets在这些“相同vs不同”任务上的表现仅略好于随机猜测,相比之下,由研究人员测试的人类的准确率接近100%。
尽管目前的ConvNets非常善于学习识别ImageNet中对象的特征,或选择围棋中下一步的走法,但是,它甚至连理想化的邦加德问题中所需要的抽象和类比的能力都尚不具备,更不用说对现实世界中的对象进行抽象和类比了。看来,ConvNets学到的这些种类的特征,还不足以构建这种抽象能力,就算使用再多训练样本也一样。不单是ConvNet不行,任何现有的人工智能系统都不具备人类的这些基本能力。
活跃的符号和做类比
侯世达坚信,研究一种现象的最好方式就是研究它最理想化的形式,这对于研究人类是如何做类比的同样适用。人工智能研究中通常使用所谓的“微观世界”(就是一种理想化的情境,比如邦加德问题),研究人员能够在其中先开发一些想法,再在更复杂的领域中进行测试。为了研究类比,侯世达甚至构建了一个比邦加德问题更加理想化的微观世界:关于字符串的类比问题。
如下是一个例子:
问题1:假设字符串abc改动为abd,你如何以相同的方式改动字符串pqrs?
大多数人的答案是pqrt,他们推断出这样一条规则:“将最右边的字母替换为它在字母表中的后一个字母。”当然,我们还有可能会推断出一些其他规则,从而产生不同的答案。这里有几个可替代的答案:
pqrd:用d替换最右边的字母。
pqrs:用d替换所有c,pqrs中没有c,所以不做任何变动。
abd:用字符串abd替换任何字符串。
这些可替代答案可能看起来会太过字面化,但没有任何严格的逻辑论证可以证明它们是错误的。事实上,我们可以推断出无限多的可能规则,但为什么大多数人都认同其中的pqrt这个答案是最好的?似乎我们为促进自身在现实世界中的生存和繁衍而演化出的关于抽象的心理机制,延续到了这个理想化的微观世界中。
即便是在这个简单的字母构成的微观世界中,其可能存在的共性也是相当微妙的,至少对一台机器来说是如此。我们人类总是倾向于把一模一样的或相似的对象归为一组!
在这个微观世界中,概念滑移(conceptual slippage)这一概念是做类比的核心。当你试图感知两种不同情境在本质上的共性时,来自第一种情境的某些概念需要“滑移”到第二种情境中,即被第二种情境中的相关概念所取代。
侯世达设想了一个名为“Copycat”的计算机程序,它可以通过使用非常通用的算法来解决这类问题,这种算法类似于人类在任何领域做类比时都会使用的算法。Copycat这个名字源于这样一种想法:做类比的人可以通过做同样的事情,即通过成为一个模仿者来解决这些问题。原始的情境(如abc)在某种程度上发生了改动,而你的任务就是对新情境(如ppqqrrss)做相同的改动。
Copycat既不是一个符号化的、基于规则的程序,也不是一个神经网络,尽管它同时包含了符号人工智能和亚符号人工智能的一些特性。Copycat通过程序的感知过程(即观察一个特定的字符串类比问题的特征)及如字母和字母组、后者和前者、相同和相反等先验概念之间的持续交互来解决类比问题。这个程序被构造成一种可以模仿我在前一章中描述的心智模型的东西,特别是,它们都基于侯世达关于人类认知中活跃符号(active symbols)的概念。
当我提交了一篇论述Copycat程序的学位论文时,我认为这个程序已经能够以通用的、与人类相似的方式解决多种字符串类比的问题了。当我提交了一篇论述Copycat程序的学位论文时,我认为这个程序已经能够以通用的、与人类相似的方式解决多种字符串类比的问题了。
问题4:如果azbzczd改动为abcd,那么pxqxrxsxt将会改动为什么?
问题5:如果abc改动为abd,那么ace将会改动为什么?
字符串世界中的元认知
人类智能的一个必不可少的方面,是感知并反思自己的思维能力,这也是人工智能领域近来很少讨论的一点,在心理学中,这被称作“元认知”。
詹姆斯·马歇尔(James Marshall)当时是侯世达研究团队的一名研究生,承担了一个让Copycat“反思”自己的思维过程的项目。他创建了一个名为“Metacat”的程序,Metacat不仅解决了Copycat字符串领域中的类比问题,还试图让Copycat感知其自身的行为。当程序运行时,它会对自己在解决问题的过程中识别到的概念生成一条运行注解。和Copycat一样,Metacat虽然展示了一些令人欣喜的行为,但也仅触及了人类自我反思能力的表象。
识别整个情境比识别单个物体要困难得多
我和我的同事正在开发一个名为“Situate”的程序,它将DNN的目标识别能力与Copycat的活跃符号结构相结合,通过做类比来识别某些特定情境。我们希望它不仅能够识别简单明了的情境,而且能够识别需要进行概念滑移的非常规的情境。
Copycat、Metacat和Situate仅仅是基于侯世达的活跃符号结构构建的类比程序中的3个示例。此外,活跃符号结构只是人工智能领域中创建的能够做类比的程序的众多方法之一。尽管类比对人类认知的任何层次来说都是基础性的,但目前为止还没有人工智能程序能具有人类的类比能力——哪怕一点点。
“我们真的,真的相距甚远”
现代人工智能以深度学习为主导,以DNN、大数据和超高速计算机为三驾马车,然而,在追求稳健和通用的智能的过程中,深度学习可能会碰壁——重中之重的“意义的障碍”。
安德烈·卡帕西是一名深度学习和计算机视觉领域的专家,他目前在指导特斯拉的人工智能的相关工作。卡帕西在其发表的一篇题为《计算机视觉和人工智能的现状:我们真的,真的相距甚远》的文章描述了自己作为一名计算机视觉研究人员对一张特定照片的反应(见上图)。卡帕西指出,我们人类会发现这张照片非常幽默,那么,问题来了:“一台计算机需要具备什么样的知识才能像你我一样去理解这张照片?”
卡帕西列出了许多我们人类轻易就能理解但仍然超出了当今最好的计算机视觉程序的能力范围的事物。
- 例如,我们能够识别出场景中有人,也有镜子,因此有些“人”只是镜子中的影像;
- 我们能够识别出图中的场景是一间更衣室,并且我们会对在更衣室里看到这样一群西装革履的人而感到奇怪。
- 再进一步,我们可以识别出一个人正站在体重秤上,尽管体重秤是由混合在背景中的白色像素组成的。
- 卡帕西指出,我们可以发现奥巴马把他的脚轻轻地压在体重秤上,并强调,我们很容易根据我们推断出来的三维场景结构而不是这张二维图像来得出这一结论。
- 我们对物理学的直觉知识使我们可以推断:奥巴马的脚踩着体重秤将导致体重秤上显示的数字大于体重秤上男士的真实体重。
- 我们在心理学方面的直觉知识告诉我们:站在体重秤上的这个人并没有意识到奥巴马的脚踩在秤上,这能从那个人视线的方向推断出来,并且我们知道他的脑袋后面并没有长眼睛。
- 我们还能明白:测量体重的人大概感觉不到奥巴马的脚正轻踏在秤面上。
- 我们还能根据心智理论进一步推测:当体重秤显示的体重比他的预期要高时,他将很不开心。
- 最后,我们看得出奥巴马和其他观察这一场景的人都在微笑,他们被奥巴马对这个人开的这个玩笑逗乐了,并且可能因为奥巴马的身份让它变得更有趣了。
- 我们也识别出他们的玩笑是友善的,并且他们期望站在秤上的人知道自己被捉弄之后也会开怀大笑。
通义千问对该黑白图片的解读:
这是一张黑白照片,拍摄于一个走廊里。在画面中,有几个人穿着西装打领带,其中一个人正在用体重秤称重。他旁边站着另一个人,似乎是在帮助他调整体重秤的位置或者读数。其他人在一旁看着他们俩,表情各异。
从背景来看,这个地方可能是一个办公室或会议室等公共场所。由于是黑白照片,我们无法确定具体是什么颜色的环境和服装。但是整体氛围显得比较正式和严肃。
对该彩色图片的解读:
这张图片显示了一些人站在一个房间里,其中一人正站在体重秤上测量体重。奥巴马总统也在场,并且似乎对这个场景感到有趣或者有所关注,因为他正看向那个称重的人。其他人也注意到了奥巴马的反应,他们看起来有些惊讶或者觉得好笑。房间内还有镜子反射出他们的身影。整个场景给人一种轻松、非正式的感觉。
卡帕西指出,“你在推理人们的心智状态,以及他们对其他人的心智状态的看法。这会变得越来越可怕……令人难以置信的是:上面所有的推论都是从人们对这幅二维的由像素构成的图像的简单一瞥而展开的”。
对我而言,卡帕西的例子完美地捕捉到了人类理解能力的复杂性,并以水晶般的清晰度展现了人工智能所面临的挑战之大。卡帕西的文章写于2012年,但其传递的信息在今天看来依然正确,我相信,在未来很长一段时间内都是这样。
卡帕西用下面这段文字概括了他的文章:
我几乎可以肯定的是:我们可能需要进一步探索“具身”(embodiment)这一概念。构建像我们这样能够理解各种场景的计算机的唯一方法,就是让它们接触到我们在这么多年来所拥有的结构化的和暂时的经验、与世界互动的能力,以及一些在我思考它应具备何种能力时几乎都无法想象的神奇的主动学习和推理的能力。
具身是指这样一种理论:人类的生理体验与心理状态之间有着强烈的联系。人类的意识来源于肉体,认知是身体的认知,心智也是身体的心智,离开了身体,认知、心智和意识根本就不存在。
在17世纪,哲学家勒内·笛卡儿推测,我们的身体和思想是由不同的物质组成的,并受制于不同的物理定律。
自20世纪50年代以来,人工智能的主流方法都隐晦地接受了笛卡儿的这一论点,假设通用人工智能可以通过非实体的程序来实现。
但是,有一小部分人工智能研究群体一直主张所谓的具身假说:如果一台机器没有与世界进行交互的实体,那它就无法获得人类水平的智能。这种观点认为:一台放置在桌子上的计算机,甚至是生长在缸中的非实体的大脑,都永远无法获得实现通用智能所需的对概念的理解能力。只有那种既是物化的又在世界中很活跃的机器,才能在其领域中达到人类水平的智能。同卡帕西一样,我几乎无法想象若要制造这样一台机器,我们将需要取得哪些突破。历经多年与人工智能的“拼杀”之后,我发现关于具身的相关争论正越来越受到关注。
缸中之脑是知识论中的一个思想实验,由哲学家希拉里·普特南(Hilary Putnam)在《理性、真理和历史》(Reason, Truth, and History)一书中提出。该实验的理论基础是:人所体验到的一切最终都要在大脑中转化为神经信号。假设一个邪恶的科学家将一个大脑从人体取出,放入一个装有营养液的缸里维持着它的生理活性,超级计算机通过神经末梢向这个大脑传递和原来一样的各种神经电信号,并对大脑发出的信号给予和平时一样的信号反馈,则大脑所体验到的世界其实是计算机制造的一种虚拟现实,那么,此大脑能否意识到自己生活在虚拟现实之中?
《AI 3.0》读书笔记
《AI 3.0》读书笔记 序1
《AI 3.0》读书笔记 序2
《AI 3.0》读书笔记 序3
《AI 3.0》读书笔记 译者序
《AI 3.0》读书笔记 第一部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能01
《AI 3.0》读书笔记 第一部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能02
《AI 3.0》读书笔记 第一部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能03
《AI 3.0》读书笔记 第二部分 视觉识别:始终是“看”起来容易“做”起来难 04 何人,何物,何时,何地,为何
《Ai 3.0》读书笔记 第二部分 视觉识别:始终是“看”起来容易“做”起来难 05 ConvNets和ImageNet,现代人工智能的基石
《AI 3.0》读书笔记 第二部分 视觉识别:始终是“看”起来容易“做”起来难 06 难以避免的长尾效应
《AI 3.0》读书笔记 第二部分 视觉识别:始终是“看”起来容易“做”起来难 07 确保价值观一致,构建值得信赖、有道德的人工智能
《AI 3.0》第三部分 游戏与推理:开发具有更接近人类水平的学习和推理能力的机器
《AI 3.0》第三部分 08 强化学习,最重要的是学会给机器人奖励
《AI 3.0》第三部分 09 学会玩游戏,智能究竟从何而来从
《AI 3.0》第三部分 10 游戏只是手段,通用人工智能才是目标
《AI 3.0》第四部分 自然语言:让计算机理解它所“阅读”的内容
《AI 3.0》第四部分 11 词语,以及与它一同出现的词
《AI 3.0》第四部分 12 机器翻译,仍然不能从人类理解的角度来理解图像与文字
《AI 3.0》第四部分 《AI 3.0》第四部分 13 虚拟助理——随便问我任何事情
《AI 3.0》第五部分 常识——人工智能打破意义障碍的关键
《AI 3.0》第五部分 14 正在学会“理解”的人工智能