一、概览

胶囊（capsule）的定义：由众多神经元组成，其中神经元的输出是向量（具有大小，方向）。使用激活的向量来表示特定实体，例如某个物体，或者物体内某一部分。
向量的长度代表存在该实体的概率，向量的方向代表其实例化参数。
低层次的胶囊，可以使用实例化参数，如乘上变换矩阵来预测高层次的胶囊，然后通过迭代路由算法，有选择性地激活合适的高层次胶囊。
迭代路由算法：低层次的胶囊倾向于选择那些与其预测输出的向量，点乘之积更大的高层胶囊的激活向量。
论文表示，胶囊网络在MNIST数字集上能达到目前先进水平，尤其在识别重叠数字方面要胜于卷积神经网络。

二、相关工作

1. 向量神经元

在一个激活的胶囊中神经元的作用是表示图像内特定实体的不同属性。这些属性可以包括许多不同类型的实例化参数，例如姿态 (位置、大小、方向)，形变，速度，色度等。一个特殊的属性是图像中实体存在的概率，可以使用一个输出为概率的独立逻辑单元表示。论文中采取了向量的总体长度，并且通过非线性单元将输出控制在1以内。值得注意的是，在降低向量规模的同时保持其方向不变。

传统的神经元，经过一系列加权求和操作，最后仅仅输出一个值，即为标量。胶囊中神经元的输出为一个向量，包含多个值，因此可以用来表示多种属性。

2. CNN的缺陷

CNN中一个很重要的步骤是池化（pooling）。它的作用是降低数据体的空间尺寸，从而减少网络中参数的数量，使得计算资源消耗变少，也能有效的控制过拟合。

但是论文作者 Hinton 认为池化有一个很大的缺陷，它会导致重要的信息丢失。

The pooling operation used in convolutional neuralnetworks is a big mistake and the fact that it works so well is a disaster. -- Hinton

如图max-pooling操作，丢失了output结果（2，4，2，0）在原图中的相对位置信息。

我们知道，CNN一个很重要的特性是权值共享，即使用一个卷积核对图像的各个位置进行兴趣特征提取。这也暴露了一个问题，CNN只考虑了特征是否存在，特征的其他属性如朝向、方位等并没有考虑在内。

如图的人脸，包含了人面部所有特征（眼、耳、口、鼻等），但仔细一看，会发现其明显不是一张正常人脸图（将其颠倒过来看）。但是CNN仍会以较大的概率认为它是一张人脸。

三、主要工作

1. 向量的计算

给定低层神经元向量 u，权重矩阵 W，耦合系数 c ，预测的高层神经元向量 v

将输入向量 u 经过权重矩阵 W 生成新的输入向量 U
将向量 U 乘上耦合系数 c ，求和生成向量 s
通过非线性函数将向量 s 转化成输出向量 v

2. 动态路由算法

算法核心：一开始初始化先验概率 b 为 0， b 代表向量 i 实际匹配向量 j 的可能性。耦合系数 c 由 b 通过以下公式生成。然后通过1中步骤计算整体加权后的预测向量 v ，计算整体预测向量 v 与个体预测向量 U 的点积，迭代更新先验概率 b 。

原理：两个向量的方向越接近，它们的点积就越大，如下图中的最大正点积，因而 b 得到较大的正向更新。它的实际含义是，此时 b 所对应的向量 i 和 j 有更大的匹配可能性。

3. 损失函数

使用间隔损失（Margin loss）表示：

Tk 表示 k 类是否存在，存在为 1，不存在为 0。
m+ 为0.9，当 k 类存在但是预测不存在时（假阳性），会导致损失函数前半部分很大；
m- 为0.1，当 k 类不存在但是预测存在时（假阴性），会导致损失函数后半部分很大。
λ 为0.5，表示惩罚假阳性的重要性大概是惩罚假阴性重要性的2倍。

4. 胶囊网络结构

首先输入 28x28 的二维矩阵，通过常规的卷积操作，得到 20x20x256 的ReLU Conv1层输出；
PrimaryCaps中使用了32维 9x9x8 的卷积核，得到 6x6x8x32 的输出；
DigitCaps层是一个FC层，使用 6x6x32 个 [8x16] 矩阵，连接前后两种向量： 1x8 与 1x16 ；
PrimaryCaps层表示最低级别特征，共有 6x6x32 个，DigitaiCaps层表示高一级别的特征，共有10个，然后使用动态路由算法；
最后计算输出向量的 L2 范数，确定每类数字出现的概率。

5. 模型重构

模型重构就是根据最后输出的结果重新构建出一开始的输入图像。本文中，将最后正确预测类别的向量投入到3层全连接网络中，输出完整的 28x28 数字图像。

论文在损失函数中加入了重构损失，就是取最终输出和原始图所有像素值的误差平方和。
总体损失 = 间隔损失 + α·重构损失，α = 0.0005。

四、实验结果

MNIST重构实验结果（l : 标签，p : 预测值，r : 重构目标值）。左边四列是预测正确的，重构出的图像位置和输入极其类似，说明 capsule 的确能成功地保存位置信息；后面两列是预测失败的，对比重构出的图片，发现两者之间相似度很高，纵是肉眼都较难区分。

MNIST、MultiMNIST测试集误差，其中，Baseline结构为：3个卷积层，2个全连接层，softmax层。可见，采用３次迭代路由，增加重构正则化项，能提高网络性能。

论文 | Dynamic Routing Between Capsules