Deformable ConvNets v2: More Deformable, Better Results

1. 介绍

在机器视觉的问题中,经常要面对物体具有很大形变的情况。在可变形卷积v1中,引入了deformable convdeformable RoIpooling来应对,它们对卷积和RoIpooling分布加入来offset,来使得神经网络关注真实的物体形状。
通过对引入offset后的感受野进行可视化,作者发现卷积以及pooling的采样点,采样框,在特定的物体上进行了聚集,但是这些感受野覆盖的地方并不是特别的精确,这可能导致引入了一些无关信息,作者发现这种问题在一些困难的任务中更加明显。
在这篇论文中,作者提出了可变形卷积v2,DCNv2,它有更加强大的学习可变形卷积的能力。一是,增加可变形卷积层数,二是增加了调整模块,也就是除了学习offset,还学习了一个特征缩放(也就是权重)。

2. 可变形卷积分析

2.1 Spatial Support Visualization

为了更好地理解可变形卷积,作者可视化了神经网络中节点的有效感受野,有效采样位置,以及error-bounded saliency regions。这三种形式反应了造成节点response的不同视角。

Effective receptive field 感受野里不同像素对于节点的贡献是不同的,它们贡献的不同可以通过有效感受野来表示,有效感受野是通过节点的response对图片每个像素点的intensity perturbations的梯度计算得到。
Effective sampling/bin locations 在可变形卷积v1中,作者可视化了采样点,或者采样bin,但是它们的贡献程度没有刻画出来,为此,作者在这里可视化了effective sampling/bin locations,它通过节点对不同采样点的梯度得到。
Error-bounded saliency regions 有时候直接去除图片的一些没有影响的区域,节点的值并不会改变。因此,作者定义,一个节点的支持区域为图片上能够得到error-bounded的节点值的最小区域。也就是
error-bounded saliency region*。

2.2 Spatial Support of Deformable ConvNets

从左往右依次为小物体,大物体,背景。
从上往下依次为effective sampling locations, effective receptive field, and error-bounded saliency regions
普通卷积:


regular conv

可变形卷积v1


deformable conv@conv5 stage (DCNv1)

可变形卷积v2(Effective sampling locations和v1类似,因此省略)


modulated deformable conv@conv3∼5 stages (DCNv2)

作者发现:

  1. 普通的卷积有一定刻画物体几何形变的能力。
  2. 通过引入可变形卷积,网络刻画几何形变的能力得到了加强。spatial support区域扩展到了整个物体,对于背景,也变得更大了。但是spatial support可能是不准确的
  3. 这三种可视化比deformable v1提出的可视化提供了更多的信息

论文中还展示了fc层的情况。

3. 更多的可变形卷积

3.1 堆叠更多的可变形卷积层

作者将resnet-50的conv3-5都的3*3卷积换成了可变形卷积

3.2 调整可变形卷积

作者在offset的基础上加了调整模块,用于决定采样点的权重,给定一个卷积的K个采样位置,w_k表示权重,p_k表示偏置。因此,可变形卷积的结果可以表示为:
y(p) = \sum_{k=1}^K w_k * x(p+p_k+\Delta p_k) * \Delta m_k
其中\Delta p_k \Delta m_k是学习到的偏置和权重。遇到小数作为偏置,采用bilinear插值。
因此,输出应该是3K个通道,前2K个表示x和y的偏置,最后K个表示的就是modulation scalars{\Delta },它需要sigmoid来归一化。
RoIpooling类似。

3.3 R-CNN Feature Mimicking

对于每个RoI分类节点来说,它的error-bounded saliency region会超出这个RoI。这种多余的环境信息可能对结果有害。
作者使用了feature mimicking来改善,让可变形卷积关注更集中的部分,但是不应用于背景类别。如下图


Network training with R-CNN feature mimicking

给定RoI,对应原图的区域被crop并缩放成224*224大小。然后通过和R-CNN流程,区别是RoI是整个图片,最后的两个FC得到这个patch的特征表示,用f_{RCNN}(b)表示。用一个(C+1)维的softmax分类层,另一个Feature Mimicking,用于和左边faster 得到的特征进行对比得到一个loss。公式如下:

mimic loss

两边的参数是共享的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容