Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
人类视觉系统是世界上众多奇迹之一。看看下面的手写数字序列:
大多数人毫不费力就能够认出这些数字为 504192. 这么容易反而让人觉着迷惑了。在人类的每个脑半球中,有着一个初级视觉皮层,常称为 V1,包含 1 亿 4 千万个神经元�及数百亿条神经元间的连接。但是人类视觉不是就只有 V1,还包括整个视觉皮层——V2、V3、V4 和 V5——他们逐步地进行更加复杂的图像处理。人类的头脑就是一台超级计算机,通过数十亿年的进化不断地演变,最终能够极好地适应理解视觉世界的任务。识别手写数字也不是一件简单的事。尽管人类在理解我们眼睛展示出来的信息上非常擅长,但几乎所有的过程都是无意识地。所以,我们通常并不能体会自身视觉系统解决问题的困难。
如果你尝试写出计算机程序来识别诸如上面的数字,就会明显感受到视觉模式识别的困难。看起来人类一下子就能完成的任务变得特别困难。关于我们识别形状——“9 顶上有一个圈,右下方则是一条竖线”这样的简单直觉——实际上算法上就很难轻易表达出来了。而在你试着让这些识别规则越发精准时,就会很快陷入各种混乱的异常或者特殊情形的困境中。看起来毫无希望。
神经网络以另一种方式看待这个问题。其主要思想是获取大量的手写数字,常称作训练样本,
然后开发出一个可以从这些训练样本中进行学习的系统。换言之,神经网络使用样本来自动推断出识别手写数字的规则。另外,通过增加训练样本的数量,网络可以学到更多关于手写数字的知识,这样就能够提升自身的准确性。所以,上面例子中我们只是展出了 100 个训练数字样本,而通过使用数千或者数百万或者数十亿的训练样本我们也许能够得到更好的手写数字识别器。
本章我们将实现一个可以识别手写数字的神经网络。这个程序仅仅 74 行,不适用特别的神经网络库。然而,这个短小的网络不需要人类帮助便可以超过 96% 的准确率识别数字。而且,在后面的章节,我们会发展出将准确率提升到 99% 的技术。实际上,最优的商业神经网络已经足够好到被银行和邮局分别用在账单核查和识别地址上了。
手写识别常常被当成学习神经网络的原型问题,因此我们聚焦在这个问题上。作为一个原型,它具备一个关键点:挑战性——识别手写数字并不轻松——但也不会难到需要超级复杂的解决方法,或者超大规模的计算资源。另外,这其实也是一种发展出诸如深度学习更加高级的技术的方法。所以,整本书我们都会持续地讨论手写数字识别问题。本书后面部分,我们会讨论这些想法如何用在其他计算机视觉的问题或者语音、自然语言处理和其他一些领域中。
当然,如果本章仅仅是要写一个计算机程序来识别手写数字,那么篇幅就会相当短了!但是我们现在要给出很多有关神经网络的关键思路,包括两个重要类型的神经元(感知机和 sigmoid 神经元),而标准的学习算法就是随机梯度下降。在全书中我都会贯穿对这些选择的原理的解释,以及帮助读者构建神经网络的直觉。这其实就会比单单给出一个神经网络的机制使用更多的文字,但是进行更加深入的研究会更有价值。有了这些深入的理解,在本章的最后我们便能够理解什么是深度学习,为何它如此重要。
感知机
什么是神经网络?首先,我会解释一种类型的人工神经元,成为感知机(perceptron)。感知机是在 1950 - 1960 年代由 Frank Rosenblatt 提出的,他受到了 Warren McCulloch 和 Walter Pitts 的前期工作的启发。现在,常常都会使用其他类型如在本书中的人工神经元模型,而在更加现代的神经网络中,主要的神经元模型就是 sigmoid 神经元。我们后面会简要介绍 sidmoid 神经元。但是为了理解为何 sigmoid 神经元按照那种特定的方式定义,就有必要先花时间理解感知机。
所以感知机是怎么工作的?感知机以若干二元值 $$x_1, x_2,...$$作为输入,产生单一的二元值输出:
在上面的例子中的感知机有三个输入:$$x_1, x_2, x_3$$。一般来说,这可以是其他的数量。Rosenblatt 提出了一个简单的规则来计算输出。他引入了实值的权重(weights) $$w_1,w_2,...$$ 来表示输入对输出的相应的贡献。神经元的输出,$$0/1$$ 就是通过带权和 $$\sum_j w_jx_j$$ 是否超过某个阈值确定的。如权重一样,阈值也是一个实值得神经元的参数。用更加代数的形式就是:
这就是感知机工作的机制!
这是一个基本的数学模型。感知机可以看做是一个可以对证据进行归整的设备。让我们给出一个例子。这不是一个非常现实的例子,但是很容易理解,后面我也会有更加真实的例子。假设周末来临,你听说会有一个起司节快要在你所在的城市举行。你很喜欢起司,试着决定是否参加这个节日。你可能会根据下面的因素权衡做出最终的决定:
- 天气好不好?
- 你的男朋友/女朋友是否愿意同往?
- 举行地点是不是靠近公交站点?(假设你没有车)
我们能够使用对应的二元变量来表示这三个因素,$$x_1, x_2, x_3$$。例如,如果天气好,我们就有 $$x_1 = 1$$,否则 $$x_0 = 0$$。类似地,如果你男朋友/女朋友想要同去,那么 $$x_2=1$$,否则 $$x_2=0$$。对 $$x_3$$ 也是这样确定。
现在假设你绝对想要起司,即使你的男朋友/女朋友不感兴趣,或者举办地交通不便,去参加了也会非常开心。但是可能你非常厌恶糟糕的天气,如果天气不好你就不会出去参加这个活动了。这种情况,我们就可以使用感知机来对这种场景进行建模。一种方式就是对天气选择权重 $$w_1=6$$,对另外两个选择 $$w_2=6$$,$$w_3=2$$。$$w_1$$ 越大意味着天气对你的影响越大,超过其他两个因素。最终,假设你选择了 $$5$$ 作为感知机的阈值。有了这些配置,感知机就实现了一个我们所期望的决策制定模型,在天气很好的时候输出 $$1$$,而在天气不好的时候输出 $$0$$。男女朋友是不是同往以及交通是否方便对这个判断其实没有任何影响。
通过改变不同的权重和阈值,我们可以获得不同的决策制定模型。例如,假设我们选择 $$3$$ 作为阈值。那么感知机会判断你应当在只要天气是好的或者在交通方便并且你的男女朋友乐意同往的时候才参加活动。换言之,这是一个不同的决策制定模型。下降阈值意味着你更加乐意参加起司节活动。
明显地,感知机不是一个完备的类人的决策制定模型!但是上面例子描述的是一个感知机如何能够度量不同的证据来做出决策。并且这应该看起来更加合理,复杂的感知机网络可以作出相当微妙的决策:
在上面的网络中,感知机的第一列——我们称为第一 层 感知机——通过输入证据的权重进行了三个非常简单的决策。那么第二层的感知机呢?这些感知机都进行了来自第一层的决策判断作为输入的决策。所以按照这种方式,感知机可以以一种更加复杂和抽象的层次进行据测。最后更加复杂的决策就可以由第三层的感知机完成。如此下去,多层感知机网络可以进行复杂的决策制定。
另外,当我定义感知机时,我说到感知机有仅仅一个输出。在面的网络中,看起来有多个输出。实际上,还仅仅就是一个输出。多个输出的箭头仅仅是一种表示感知机的输出传递给下层多个感知机的意思。如果画成一条分裂开的箭头看起来有点怪异。
让我们简化一下描述感知机的方式。条件 $$\sum_j w_jx_j >$$ 阈值有点笨拙,我们可以做出两处表示上的调整来简化这个定义。第一个就是