论文 | Dynamic Routing Between Capsules

一、概览

  • 胶囊(capsule)的定义:由众多神经元组成,其中神经元的输出是向量(具有大小,方向)。使用激活的向量来表示特定实体,例如某个物体,或者物体内某一部分。
    向量的长度代表存在该实体的概率,向量的方向代表其实例化参数 。
  • 低层次的胶囊,可以使用实例化参数,如乘上变换矩阵来预测高层次的胶囊,然后通过迭代路由算法,有选择性地激活合适的高层次胶囊。
  • 迭代路由算法:低层次的胶囊倾向于选择那些与其预测输出的向量,点乘之积更大的高层胶囊的激活向量。
  • 论文表示,胶囊网络在MNIST数字集上能达到目前先进水平,尤其在识别重叠数字方面要胜于卷积神经网络。

二、相关工作

1. 向量神经元

在一个激活的胶囊中神经元的作用是表示图像内特定实体的不同属性。这些属性可以包括许多不同类型的实例化参数,例如姿态 (位置、大小、方向),形变,速度,色度等。一个特殊的属性是图像中实体存在的概率,可以使用一个输出为概率的独立逻辑单元表示。论文中采取了向量的总体长度,并且通过非线性单元将输出控制在1以内。值得注意的是,在降低向量规模的同时保持其方向不变。

传统的神经元,经过一系列加权求和操作,最后仅仅输出一个值,即为标量。胶囊中神经元的输出为一个向量,包含多个值,因此可以用来表示多种属性。

2. CNN的缺陷

CNN中一个很重要的步骤是池化(pooling)。它的作用是降低数据体的空间尺寸,从而减少网络中参数的数量,使得计算资源消耗变少,也能有效的控制过拟合。

但是论文作者 Hinton 认为池化有一个很大的缺陷,它会导致重要的信息丢失。

The pooling operation used in convolutional neuralnetworks is a big mistake and the fact that it works so well is a disaster. -- Hinton

如图max-pooling操作,丢失了output结果(2,4,2,0)在原图中的相对位置信息。

我们知道,CNN一个很重要的特性是权值共享,即使用一个卷积核对图像的各个位置进行兴趣特征提取。这也暴露了一个问题,CNN只考虑了特征是否存在 ,特征的其他属性如朝向、方位等并没有考虑在内。

如图的人脸,包含了人面部所有特征(眼、耳、口、鼻等),但仔细一看,会发现其明显不是一张正常人脸图(将其颠倒过来看)。但是CNN仍会以较大的概率认为它是一张人脸。

三、主要工作

1. 向量的计算

给定低层神经元向量 u,权重矩阵 W,耦合系数 c ,预测的高层神经元向量 v

  • 将输入向量 u 经过权重矩阵 W 生成新的输入向量 U
  • 将向量 U 乘上耦合系数 c ,求和生成向量 s
  • 通过非线性函数将向量 s 转化成输出向量 v

2. 动态路由算法


算法核心:一开始初始化先验概率 b 为 0, b 代表向量 i 实际匹配向量 j 的可能性。耦合系数 cb 通过以下公式生成。然后通过1中步骤计算整体加权后的预测向量 v ,计算整体预测向量 v 与 个体预测向量 U 的点积,迭代更新先验概率 b

原理:两个向量的方向越接近,它们的点积就越大,如下图中的最大正点积,因而 b 得到较大的正向更新。它的实际含义是,此时 b 所对应的向量 i 和 j 有更大的匹配可能性。

3. 损失函数

使用间隔损失(Margin loss)表示:



Tk 表示 k 类是否存在,存在为 1,不存在为 0。
m+ 为0.9,当 k 类存在但是预测不存在时(假阳性),会导致损失函数前半部分很大;
m- 为0.1,当 k 类不存在但是预测存在时(假阴性),会导致损失函数后半部分很大。
λ 为0.5,表示惩罚假阳性的重要性大概是惩罚假阴性重要性的2倍。

4. 胶囊网络结构

  • 首先输入 28x28 的二维矩阵,通过常规的卷积操作,得到 20x20x256 的ReLU Conv1层输出;
  • PrimaryCaps中使用了32维 9x9x8 的卷积核,得到 6x6x8x32 的输出;
  • DigitCaps层是一个FC层,使用 6x6x32 个 [8x16] 矩阵,连接前后两种向量: 1x8 与 1x16 ;
    PrimaryCaps层表示最低级别特征,共有 6x6x32 个,DigitaiCaps层表示高一级别的特征,共有10个,然后使用动态路由算法;
  • 最后计算输出向量的 L2 范数,确定每类数字出现的概率。

5. 模型重构

模型重构就是根据最后输出的结果重新构建出一开始的输入图像。本文中,将最后正确预测类别的向量投入到3层全连接网络中,输出完整的 28x28 数字图像。



论文在损失函数中加入了重构损失,就是取最终输出和原始图所有像素值的误差平方和。
总体损失 = 间隔损失 + α·重构损失,α = 0.0005。

四、实验结果

MNIST重构实验结果(l : 标签,p : 预测值,r : 重构目标值)。左边四列是预测正确的,重构出的图像位置和输入极其类似,说明 capsule 的确能成功地保存位置信息;后面两列是预测失败的,对比重构出的图片,发现两者之间相似度很高,纵是肉眼都较难区分。



MNIST、MultiMNIST测试集误差,其中,Baseline结构为:3个卷积层,2个全连接层,softmax层。可见,采用3次迭代路由,增加重构正则化项,能提高网络性能。



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,784评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,745评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,702评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,229评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,245评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,376评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,798评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,471评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,655评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,485评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,535评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,235评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,793评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,863评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,096评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,654评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,233评论 2 341