沃尔特·皮茨与麦卡洛克(Walter Pitts 和 Warren McCulloch)
二人是神经网络真正意义上的鼻祖。 麦克洛克是神经学家,说白了,他是医生。 皮茨是天才的数学家。二人对人类大脑做建模,写了篇论文 《神经活动中思想内在性的逻辑演算》。
皮茨是神童,但更是个苦孩子,家里贫穷,上不起学。他的故事,类似电影《心灵捕手》里的马特达蒙。罗素、卡尔普纳、恩维纳几位大师都赏识这孩子,可惜跟恩维纳相处很不愉快,维纳博士为人有点糊涂,有点邪僻,二人之间的龌蹉当怪责维纳。麦克洛克对皮茨如父,二人一直合作愉快,情同父子,甚至死亡也相隔不久,令人唏嘘。
论文提出大脑其实就是个电子计算机。每个神经元都有 “激活”、“不激活” 两种状态,而其他神经元的输入信号,经过加权取和并判断,决定这个神经元的是否激活。激活的神经元构成的环路,就是人类的记忆。这和数字电路完全是一个道理,人们称呼他们提出的机构为 MP 神经元结构。
这篇论文真是开天辟地。 用一个简单的模型,宣告了人类思想神秘主义的破产。这论文还是冯诺依曼计算机架构、恩维纳控制论的思想源泉,更是 AI 神经网络的源头。不过,这个模型很简单,所以,生物学家们不鸟这个。
唐纳德·赫布(Donald Hebb)
电影黑衣人里,特工配备一把记忆消除棒,闪一下,就抹除掉一段记忆。这个真不是妄想,人类的记忆是有生物学基础的,真是可以抹掉的。 对人类记忆认知的生物学基础,来自赫布。 而 AI 神经网络的生物学基础,也是来自赫布。
唐纳德·赫布,加拿大人,他是研究神经心理学的。为弗洛伊德、巴甫洛夫这些大仙找到生物学理论。 巴甫洛夫说,喂狗食物时摇铃铛,之后只要摇铃铛狗就流口水。 赫布说,这是因为同时被激发的神经元之间形成了回路。 这就是大名鼎鼎的赫布法则(Hebbian Rule)。
有了赫布法则,人类也就没了灵魂,或者说没了那种能脱离肉体,飘在空中,对抗唯物主义的灵魂。 怕鬼的孩子们别怕了,压根就没那回事,人的思维和记忆只是神经细胞触须之间的联系罢了。人的身体、人的大脑,都只是复杂的肉体机器,别想太多了。
之后 AI 的神经网络中无监督学习,就以赫布法则为生物学理论基础,即,我们是在学习人类大脑的机制。赫布的理论对生物、心理乃至机械等领域都影响巨大。顺着赫布的理论研究,科学家们开始尝试编辑记忆,多么科幻啊。
弗兰克罗森布拉格(Frank Rosenblatt)
罗森布拉格乃是机器学习和神经网络 AI 真正的父亲。 麦卡洛克与皮茨提出的 MP 神经元,是开创性的,但只能用来计算。 而罗森布拉格提出的感知机 (Perceptron)则是能够“学习”。 在 MP 结构中,神经元的权重是人指定的,而感知机是根据数据自己学习出权重参数。另外,MP 是一层的,仅仅模拟一个神经元,而感知机是二层的。
罗森布拉格真的造出了一台机器,是IBM-704机器上实现了感知机,后来美国海军和国防部给了他一大笔钱。各种报道也是耸人听闻,吹嘘罗森布拉格马上就能捣鼓出真正的机器人了。罗森布拉格有了钱,香车宝马,奢华了一把,让学界的穷科学家们很是生气,招惹了不少仇人。后来,明斯基的书《感知机:计算几何学介绍》一出,指出感知机很笨,连“异或”逻辑都不能处理,感知机的热度立刻到达冰点,罗森布拉格也就没钱了。 1971年他43岁的时候,沉湖自尽,不知是意外还是自杀。据传,明斯基与罗森布拉特有点私仇,不知真假。
后来,神经网络再次复活,支持神经网络的科学家们纷纷纪念罗森布拉特,IEEE 开了哥罗森普拉特的奖。另一面,神经网络研究者也把怒火喷向明斯基,认为是他妨碍阻挡了神经网络的发展。
马文明斯基 (Marvin Lee Minsky)
马文明斯基是人工智能之父,之所以称之为父,是因为 AI 这个词,就是麦卡锡与明斯基在 1956 年达特茅斯会议上提出来的。这个被视为现代 AI 起点的达特茅斯会议也是麦卡锡和明斯基二人攒起来的。 麦卡锡和明斯基二人关系甚密切,都是普林斯顿大学的博士,从师承上说,麦卡锡算是明斯基的师叔,后来二人又一起在 MIT 同事,建了 MIT 的人工智能实验室。
参加达特茅斯会议的科学家们,有 5 人获得图灵奖,明斯基是其中的第一人。明斯基是纽约人,高中毕业于布朗高中,后入哈佛大学。哈佛人人皆知,布朗克斯虽然不那么知名,但这所高中,可谓鸡娃世界第一,不论是诺贝尔奖人数,还是图灵奖人数都是世界第一高中。
马文明斯基最初是赞成神经网络的,他的博士论文就是关于神经网络的。但后来,他反对神经网络。主要是因为他跟罗森布拉格是同门师兄弟,都是布朗克斯高中的,所以有点同门相残的意思。 罗森布拉格鼎盛时期,明斯基写了本书《感知机:计算几何学介绍》,对罗森布拉格的感知机做了驳斥,指出感知机不能处理异或逻辑,一下子砸了罗森布拉格的生意。后来,明斯基又改变了主意,支持神经网络,甚至在自己的著作中特意纪念罗森布拉格。
但明斯基这本书是神经网络第一次寒冬的导火索,由此,神经网络萧条近20年,学界人人视神经网络为伪学。
马文明斯基除了在人工智能上的建树外,还提出过框架理论(Framework),后来成了面向对象的理论来源。今天大火的元宇宙,如果追溯一下的话,1960年代马文明斯基就提出来了,他称之为 telepresence,基本就是今天又被炒作起来的元宇宙。
明斯基之所以上了深度学习封神榜,乃是因为他对神经网络的批评,是他触发了神经网络的第一次寒冬,所以,他是深度学习的衰神那。而他的师叔麦卡锡就在此榜中不表,因为麦卡锡与深度学习并无关系。
John Hopfield (约翰霍普菲尔德)
霍普菲尔德是物理学家,并非生物学家,也不是计算理论家。霍普菲尔德在加州理工做生物物理学教授,1982 年他提出了霍普菲尔德网络,其实就是一种全连接的神经网络,每个节点连接所有节点。录入初始值后,经过计算学习,系统稳定在一个参数集上。霍普菲尔德是从物理的动力系统出发,设计了这个神经网络,这种网络可以存储数据,还可以解决TSP优化问题。
霍普菲尔德网络并非用来学习,但它对后来的递归神经网络 RNN 有启发的作用。另外,霍普菲尔德网络再次引起了人们对神经网络的兴趣,神经网络开始走出低谷。
保罗·沃伯斯(Paul Werbos)
沃伯斯1974 年还是哈佛大学的一名博士生,他发表了一篇论文,说明了多层神经网络中使用反向传播能够提高学习效率。所以,较真儿的人,会说沃伯斯是反向传播之父,不较真儿的人,会说辛顿是反向传播之父。其实,辛顿已经否认了自己是反向传播的原创者,他说自己的贡献是使用反向传播学习分布式表征。然而,如果再较真儿一点,沃伯斯也不是反向传播之父。1974年芬兰硕士生Seppo Linnainmaa就提出过误差在网络结构中的反向传播方法,但他并未提及神经网络,他的算法虽然有效,但并非为了神经网络而设计。更早一点,Henry J. Kelley 在1960年也曾经提出过反向传播算法,Kelley 是格鲁曼飞机工程公司的工程研究人员,他在论文为了计算飞机航程而提出了反向传播算法。
当然,荣誉都归于辛顿了,沃伯斯发表反向传播时,神经网络正冷,所以就无人问津。这也说明一件事,真是时代造英雄,而不一定是英雄造时代,硬件和数据没到位,沃伯斯再聪明都没用。令人怀疑,是不是在中华上古的夏商周,有中华儿女提出过完整的深度学习算法,但是,被部落的人用石头砸死了。但美国科学界的人还算仗义,1995 年 IEEE 给沃伯斯发了一个神经网络先锋奖,算是一个告慰吧。