“阿法狗”第二式：神经网络

写在前面：

这是一篇CNN（卷积神经网络）的学习笔记，不同之处在于随处可见的数学公式不见了，真的！它的目的不在于把CNN讲清楚，讲清楚CNN不是一篇文章能做到的，更不是碎片时间浏览下就能做到的。目的在于提供一个勾子，一个抹去细节留下方法论的勾子，一个能和现有知识框架搭上的勾子。有了这个勾子，粗，可以窥探时髦的“深度学习”，细，可以为深挖细节做铺垫。

第一式里，卷积核可以理解为滤镜，滤掉无用信息，留下有效特征。但是，构造卷积核却不是一件容易的事。

“这有何难，打开Photoshop，选择‘滤镜-其它-自定义’。”

乱涂乱画，当然不难，做个实用的滤镜看看，做一个不难，做一百个一千个不同类型的滤镜呢？

脏活累活，又极其消耗脑细胞，祖师爷怎么甘心自己动手，于是，毅然踏上了另外一条……更加消耗脑细胞的路，寻找批量新建“滤镜”的方法，便悟出吸星大法般的bug功夫——神经网络。奏是这么牛！

牛在结果，更牛在背后的想法。一般我们都把机器当成提升效率的方式，人工走通流程，然后交给机器大规模地运行这个流程，机器运行的每一步人都了如执掌。而这次不同，老师教会了学生做一件自己都没弄明白的事，学生不仅做到了，而且做得很高效。所以，直播人狗大战时，会听到解说员说：

太聪明了！人是绝对想不到这步的。对，人想不到！！即使想到，需要的时间也远远超过阿法狗。

“吹吧就，BB了这么多，神经网络到底长什么样？”

虽然不是长这样，但它真的是在生物神经元的启发下提出的，所以才叫人工神经网络。

我们试着以识别人脸为例，说明人工神经网络的工作机制。拿出张三、李四、王五三人的头像各若干张，让机器去学习，然后再取几张没见过的照片，让机器判断是谁。

假定每张照片的大小都是100*100像素，把照片直接输入到系统，一个像素都不能少，让神经网络自己抽取特征。这样便有了10k个输入点，分别代表照片上的各个像素，3个输出点，分别代表属于各个人的可能性。

维基百科上解释说，当神经元接收到相连神经元的电信号时，会变得兴奋。神经元之间的连接强度不同，一些足以激活其它神经元，而另一些则会抑制激活。大脑中数千亿神经元及其连接一起构成了人类智能。

相应地，各个像素对于判断人脸的重要性不尽相同，输入层各节点的取值也各不相同，范围在0到1之间，这体现了神经元之间连接的强度。此外，在输入、输出中间有个隐含层，这是体现神经元互连的层级，也是见证神奇的地方。任意输入节点i和任意隐含节点j建立连接，连接的系数为Wij，任意隐含节点j和任意输出节点k也建立连接，连接的系数为Wjk。

“长得可真不咋滴，又是如何工作的呢？”

很简单，不停地调整连接系数，让结果尽量逼近正确答案，这叫训练。

过程是这样的，把输入层设置为照片的像素，然后以Wij的连接系数传导到隐含层，再以Wjk的连接系数汇总到输出层，输出层中值最大的节点即为这个网络判断的结果。一开始的时候，网络的连接系数是人工设置的，输出的结果肯定不尽如人意，很可能出现，明明给的是张三的照片，在输出层中却是李四对应的节点得分最高。

训练有一个目标函数，可以看成是由所有待求系数Wij为自变量的复合函数，这个目标函数定义了什么样的系数才算一组“好系数”。

“相邻层的任意节点之间都有系数，这么多系数，牵一发而动全身，如何调整才能获得‘好系数’？”

是时候让反向传播出场了。

为了讲反向传播，先绕道说一说负反馈的概念。负反馈，是系统在条件发生变化时作出抵抗该变化的行为。作为自控理论的核心概念，负反馈随处可见。此刻刷着微信的你，一定也吹着空调，空调就是个很好的例子，不停检测实际温度和目标温度的差异，高了就降一降，低了就升一升。

反向传播在想法上与负反馈类似，但具体算法不同，复杂度也不同。输出节点给出的计算值和期望值对比，得出错误，把这个错误，沿网络的相反方向传播，进而校正各个节点的系数，使得全局错误最低。

“这个描述也太模糊了，能否再细化下？”

逼我写公式，就不！反向传播算法的核心是，“梯度下降”和“链式法则求偏导”，要通俗地讲可不简单，先挖个坑，哪天悟出了群众喜闻乐见的解释方法，再填上不迟。

总之，如此这般，冬练三九，夏练三伏，错误降为零时，则神功初成。

“听说，有人反复练习了几百万次，错误依然无法降到零……”

这倒有可能，不仅可能，而且是很可能，错误收敛到一个很小的值，也算成功。练得差不多，便可以牛刀小试一番了，拿一张没见过的照片，看它能否辨认出。

“且慢，是不是少了点什么，前面说了神经网络能自动生成卷积核，体现在哪里？”

嘿嘿，隐层那些训练得到的系数，就构成了这个层级定义的过滤函数，也就是卷积核。实际的卷积神经网络有很多个隐层！图片经过一个隐层上的若干过滤器后，就得到了对应数量的特征图谱（feature map），图谱自身其实也是图片，代表了原始图片的某些特征，如轮廓、颜色、亮度，质地等。通常，卷积神经网络的隐层越深，包含的特征图谱就越多，表达能力也就越强。

“原来如此，难怪叫深度学习。”

没错。高深莫测，以至于数十载内，少有人能将其运用自如。

一来对计算能力的要求极高，不是一般的硬件能驾驭，特别是训练一个大型的、高容量的神经网络，CPU也无能为力。近年GPU大行其道后，深度学习才得以流行开来，执其牛耳者，如谷歌，更是在打造机器学习专用的TPU。

二来可解释性不强，像个“黑箱子”一样不知为什么能取得好的效果，不知其所以然，就很难针对性地改进，更别提再上一层楼了。

“哦。阿法狗逼格太高，我还是继续当程序猿吧……”

不，你应该复习下第一式。

“阿法狗”第二式：神经网络

推荐阅读更多精彩内容