获取定位置信度实现精准目标识别 #论文 #ECCV 2018 #目标检测

获取定位置信度实现精准目标识别-论文笔记

“本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载” (内容来源为机器之心)

作者:Borui Jiang、Ruixuan Luo等

机器之心编译:almosthuman2014

参与:Panda

原文链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650746037&idx=3&sn=f8d0efeb1c1c4f08f6dfd2fa72d3ea9f&chksm=871ae8cbb06d61ddb5c0fc4a84cc580d4fe4aabb061051f4bd2193d8c62f250188b7f25cfdfc&mpshare=1&scene=1&srcid=08023ePcwSR5AY5TP7eVHxEh#rd


目标检测简介

目标检测是很多下游应用的基础,如实力分割,人体骨架绘制,人脸识别,和高级目标推理等。

目标检测结合了目标分类和目标定位两个任务。

当前大多数目标检测器的框架是two-stage

目标检测是一个多任务学习问题:1)区分前景物体框与背景并为他们分配适当的类别标签;2)回归一组系数使得最大化检测框和目标框之间的交并比(IoU)或其他指标;3)最后,通过一个 NMS 过程移除冗余的边界框(移除对同一目标的重复检测)。

传统流程中定位置信度的缺失

在这个流程中,分类和定位用不同方法解决。一般来说流程如下,给定一系列的提议框(proposal),对每个提议框进行分类得到各类别标签的概率,这个概率可以用来做该提议框的 [分类置信度],而边界框的回归模块却只是预测针对该提议框的变换系数,以拟合目标物体的位置。在这个流程中缺失了 [定位置信度]。

定位置信度的缺失带来了两个缺点:1)为了抑制重复检测,会给检测框进行排名。由于定位置信度的缺失,分类分数通常被用作给检测狂排名的指标。如图1(a)中的案例所示,绿色边框相比红色边框拥有更高的分类置信度,然而相比红色边框却拥有比绿色边框更高的重叠度。因此就像 Gresham 著名的 [劣币驱逐良币] 理论一样,分类置信度和定位准确度之间的不匹配可能会导致定位更准确的边界框在NMS过程中反而被相对不准确的边界框抑制了。2)定位置信度的缺失使得广泛使用的边界框回归方法缺少可解释性。例如,在之前的某研究中发现,如果多次应用边界框回归,可能有损输入边界框的定位效果。

来自论文

IoU-Net

在这篇论文中,研究者使用 IoU-Net 预测检测到的边界框和他们对应的真实目标框之间的 IoU。这使得该网络能对检测框的定位精确程度有所掌握。

预测IoU值得方法可以提供前述问题的新解决方案:

1. IoU 是定位准确度的标准,可以用来代替分类置信度作为NMS的排名依据。这种方法被称为 IoU 引导式 NMS (IoU-guided NMS),可以消除误导性的分类置信度造成的错误。

2. 研究者提出一种基于优化的边界框修正流程,效果可比传统的基于回归的边界框修正方法。在推理期间,预测得到的IoU可以作为定位置信度的指标量,也可作为优化目标。研究者提出的精准 RoI 池化层 (Precise RoI Pooling layer) 使得可以通过梯度上升求解 IoU 优化。研究表明,相比于基于回归的方法,基于优化的边界框修正方法在实验中能实现定位准确度的单调提升。这种方法可以兼容并整合进各种不同的基于 CNN 的检测器。

边界框修正示例:传统方法与该文提出方法比较


来自论文

深入目标定位

分类准确度和定位准确度不匹配


来自论文


来自论文

基于优化和基于回归的 BBox 优化


来自论文

IoU-Net 详解

1. 训练 IoU 预测器的方法


来自论文

2. IoU 引导式 NMS


来自论文

3. 将边界框修正当作一个优化过程


来自论文

精准 RoI 池化(Precise RoI Pooling)

研究者引入了精准 RoI 池化(简写成:PrRoI 池化)来助力研究者的边界框修正。其没有任何坐标量化,而且在边界框坐标上有连续梯度。给定 RoI/PrRoI 池化前的特征图 F(比如,来自 ResNet-50 中的 Conv4),设 wi,j 是该特征图上一个离散位置 (i,j) 处的特征。使用双线性插值,这个离散的特征图可以被视为在任意连续坐标 (x,y) 处都是连续的:


来自论文

为更便于理解,研究者在图 6 中可视化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化:在传统的 RoI 池化中,连续坐标首先需要被量化(quantization),以计算该 bin 中激活的和;为了消除量化误差,在 RoI Align 中,会采样该 bin 中 N=4 个连续点,表示成 (a_i,b_i),而池化就是在这些采样的点上执行的。RoI Align 中的 N 是预定义的,而且不能根据 bin 的大小进行调整;与此不同,研究者提出的 PrRoI 池化是直接基于连续特征图计算二阶积分。


来自论文

4. 联合训练

这种 IoU 预测器可集成到标准的 FPN 流程中,以进行端到端的训练和推理。为了清楚说明,研究者将用于图像特征提取的 CNN 架构称为骨干(backbone),将应用于各个 RoI 的模块称为头(head)。

如图 5 所示,这个 IoU-Net 使用了 ResNet-FPN [16] 作为骨干网络,其架构是自上而下的,可构建特征金字塔(feature pyramid)。FPN 能根据 RoI 的特征的比例从这个特征金字塔的不同层级提取这些 RoI 的特征。其中原来的 RoI 池化层被换成了精准 RoI 池化层。至于该网络的头,这个 IoU 预测器根据来自骨干网络的同一视觉特征而与 R-CNN 分支(包括分类和边界框回归)并行工作。

研究者根据在 ImageNet [25] 上预训练的 ResNet 模型初始化了权重。所有新的层都使用了标准差为 0.01 或 0.001 的零均值高斯分布进行初始化。研究者使用了平滑 L1 损失来训练 IoU 预测器。IoU 预测器的训练数据是在一个训练批中的图像中单独生成的,详见 1 节。IoU 标签进行了归一化,因此其值分布在 [-1,1]。

输入图像的大小进行了调节,短边长度为 800 像素,长边长度最大为 1200 像素。分类和回归分支取来自 RPN 的每张图像 512 RoI。研究者使用了 16 的批大小进行训练。网络为 16 万次迭代进行了优化,学习率设置为 0.01,并在 12 万次迭代后减小 10 倍。研究者还为前 1 万次迭代设置了 0.004 的学习率以进行预热。研究者使用了 1e-4 的权重衰减和 0.9 的 momentum.

在推理过程中,研究者首先对初始坐标应用边界框回归。为了加快推理速度,研究者首先在所有检测到的边界框上应用 IoU 引导式 NMS。然后,使用基于优化的算法进一步改进 100 个有最高分类置信度的边界框。研究者设置步长为 λ=0.5,早停阈值为 Ω1=0.001,定位衰减容限 Ω2=−0.01,迭代次数 T=5。

实验

研究者在有 80 个类别的 MS-COCO 检测数据集 [17] 上进行了实验。遵照 [1,16],研究者在 8 万张训练图像和 3.5 万张验证图像的并集(trainval35k)上训练了模型,并在包含 5000 张验证图像的集合(minival)上评估了模型。为验证该方法,在 1 节和 2 节,研究者与目标检测器分开而训练了一个独立的 IoU-Net(没有 R-CNN 模块)。IoU-Net 助力的 IoU 引导式 NMS 和基于优化的边界框修正被应用在了检测结果上。

1. IoU 引导式 NMS

表 1 总结了不同 NMS 方法的表现。尽管 Soft-NMS 能保留更多边界框(其中没有真正的「抑制」),但 IoU 引导式 NMS 还能通过改善检测到的边界框的定位来提升结果。因此,在高 IoU 指标(比如 AP_90)上,IoU 引导式 NMS 显著优于基准方法。


来自论文


来自论文

2. 基于优化的边界框修正

研究者提出的基于优化的边界框修正与大多数基于 CNN 的目标检测器 [16,3,10] 都兼容,如表 2 所示。将这种边界框修正方法应用在原来的使用单独 IoU-Net 的流程之后还能通过更准确地定位目标而进一步提升表现。即使是对有三级边界框回归运算的 Cascade R-CNN,这种改进方法能进一步将 AP_90 提升 2.8%,将整体 AP 提升 0.8%。


来自论文

3. 联合优化

IoU-Net 可与目标检测框架一起并行地端到端优化。研究者发现,将 IoU 预测器添加到网络中有助于网络学习更具判别性的特征,这能分别将 ResNet50-FPN 和 ResNet101-FPN 的整体 AP 提升 0.6% 和 0.4%。IoU 引导式 NMS 和边界框修正还能进一步提升表现。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP,相比而言基准为 38.5%,提升了 2.1%。表 4 给出了推理速度,表明 IoU-Net 可在计算成本承受范围之内实现检测水平的提升。


来自论文

总结

本文提出一种用于准确目标定位的全新网络架构 IoU-Net。通过学习预测与对应真实目标的 IoU,IoU-Net 可检测到的边界框的「定位置信度」,实现一种 IoU 引导式 NMS 流程,从而防止定位更准确的边界框被抑制。IoU-Net 很直观,可轻松集成到多种不同的检测模型中,大幅提升定位准确度。MS-COCO 实验结果表明了该方法的有效性和实际应用潜力。

从学术研究的角度,本文指出现代检测流程中存在分类置信度和定位置信度不匹配的问题。更进一步,研究者将边界框修正问题重定义为一个全新的优化问题,并提出优于基于回归方法的解决方案。研究者希望这些新视角可以启迪未来的目标检测工作。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342