图像分割中CNN的简史：从R-CNN到Mask R-CNN

在Athelas(Athelas 通过深度学习进行血液诊断)，我们使用卷积神经网络（CNN）不仅仅是分类！在这篇文章中，我们将看到如何在图像实例分割中使用CNN，效果很好。

自从Alex Krizhevsky，Geoff Hinton和Ilya Sutskever在2012年赢得ImageNet以来，卷积神经网络（CNNs）已经成为图像分类的黄金标准。事实上，从那时起，CNN已经改进到现在他们在ImageNet挑战中胜过人类的程度！

CNN现在在ImageNet挑战中胜过人类。上图中的y轴是ImageNet上的错误率。

虽然这些结果令人印象深刻，但图像分类远比真人类视觉理解的复杂性和多样性简单得多。

分类挑战中使用的图像示例。请注意图像是如何构图良好的，并且只有一个对象。

在分类中，通常有一个图像，其中一个对象作为焦点，任务是说该图像是什么（见上文）。但是，当我们观察周围的世界时，我们会执行更复杂的任务。

现实生活中的景点通常由许多不同的，重叠的物体，背景和动作组成。

我们看到复杂的景点有多个重叠的物体和不同的背景，我们不仅要对这些不同的物体进行分类，还要确定它们之间的界限，差异和关系！

在图像分割中，我们的目标是对图像中的不同对象进行分类，并识别它们的边界。资料来源：Mask R-CNN论文。

CNN可以帮助我们完成这些复杂的任务吗？也就是说，给定一个更复杂的图像，我们可以使用CNN来识别图像中的不同对象及其边界吗？正如Ross Girshick和他的同龄人在过去几年所表明的那样，答案是肯定的。

这篇文章的目标

通过这篇文章，我们将介绍在对象检测和分割中使用的一些主要技术背后的直觉，并了解它们是如何从一个实现发展到下一个实现的。特别是，我们将介绍R-CNN（地区CNN），这是CNN对此问题的原始应用，以及其后代Fast R-CNN和Faster R-CNN。最后，我们将介绍最近由Facebook Research发布的一篇文章Mask R-CNN，它扩展了这种对象检测技术以提供像素级分割。以下是本文中引用的论文：

R-CNN：https：//arxiv.org/abs/1311.2524

Fast R-CNN：https：//arxiv.org/abs/1504.08083

Faster R-CNN：https：//arxiv.org/abs/1506.01497

Mask R-CNN：https：//arxiv.org/abs/1703.06870

2014年：R-CNN - CNN在物体检测中的早期应用

诸如R-CNN的对象检测算法接收图像并识别图像中主要对象的位置和分类。

受多伦多大学Hinton实验室研究的启发，由Jitendra Malik教授领导的加州大学伯克利分校的一个小团队问自己，今天看来是一个不可避免的问题：

在多大程度上[Krizhevsky等。al的结果]推广到物体检测？

对象检测的任务是在图像中查找不同的对象并对其进行分类（如上图所示）。由Ross Girshick（我们将再次看到的名字），Jeff Donahue和Trevor Darrel组成的团队发现，通过测试PASCAL VOC Challenge，这是一种类似于ImageNet的流行物体检测挑战，Krizhevsky的结果可以解决这个问题。他们写，

本文首次表明，与基于简单HOG类功能的系统相比，CNN可以在PASCAL VOC上实现更高的物体检测性能。

现在让我们花一点时间来了解他们的架构，CNNs区域（R-CNN）是如何工作的。

了解R-CNN

R-CNN的目标是接收图像，并正确识别图像中主要对象（通过边界框）的位置。

输入：图像

输出：图像中每个对象的边界框+标签。

但是我们如何找出这些边界框的位置？R-CNN做了我们可能直观地做的事情 - 在图像中提出 一堆框，看看它们中的任何一个是否实际上对应于一个对象。

选择性搜索查看多个比例的窗口，并查找共享纹理，颜色或强度的相邻像素

R-CNN使用称为选择性搜索的过程创建这些边界框或区域提议，您可以在此处阅读。在较高的层次上，选择性搜索（如上图所示）通过不同大小的窗口查看图像，并且对于每个尺寸，尝试通过纹理，颜色或强度将相邻像素组合在一起以识别对象。

在创建一组区域提议后，R-CNN通过AlexNet的修改版本传递图像，以确定它是否是有效区域。

一旦提出建议，R-CNN将该区域变为标准的方形大小，并将其传递给AlexNet的修改版本（ImageNet 2012的获奖提交，启发了R-CNN），如上所示。

在CNN的最后一层，R-CNN增加了一个支持向量机（SVM），它简单地分类这是否是一个对象，如果是的话，是什么对象。这是上图中的第4步。

改进边界框

现在，在盒子里找到了这个物体，我们可以收紧盒子以适应物体的真实尺寸吗？我们可以，这是R-CNN的最后一步。R-CNN对区域提议运行简单的线性回归，以生成更紧密的边界框坐标以获得最终结果。以下是此回归模型的输入和输出：

输入：与对象对应的图像的子区域。

输出：子区域中对象的新边界框坐标。

总而言之，R-CNN只是以下步骤：

1.为边界框生成一组提议。

2.通过预先训练的AlexNet运行边界框中的图像，最后运行SVM，以查看框中图像的对象。

3.通过线性回归模型运行该框，一旦对象被分类，就为框输出更紧密的坐标。

2015年：快速R-CNN - 加速并简化R-CNN

Ross Girshick写了R-CNN和Fast R-CNN。他继续在Facebook Research推动计算机视觉的界限。

R-CNN效果很好，但由于一些简单的原因，它确实很慢：

它需要CNN（AlexNet）的正向传递，用于每个单个图像的每个区域建议（每个图像大约2000个前向传递！）。

它必须分别训练三个不同的模型 - 用于生成图像特征的CNN，用于预测类的分类器，以及用于收紧边界框的回归模型。这使得管道极难训练。

2015年，R-CNN的第一作者Ross Girshick解决了这两个问题，导致了我们短暂历史中的第二个算法 - 快速R-CNN。现在让我们回顾一下它的主要见解。

Fast R-CNN洞察力1：RoI（感兴趣区域）池

对于CNN的前向传递，Girshick意识到对于每个图像，图像的许多建议区域总是重叠，导致我们一次又一次地运行相同的CNN计算（~2000次！）。他的洞察力很简单 - 为什么不在每张图像上运行CNN一次，然后找到一种方法来分享〜2000个提案中的计算？

在RoIPool中，创建图像的完整前向传递，并从所得到的前向传递中提取每个感兴趣区域的conv特征。

这正是Fast R-CNN使用称为RoIPool（感兴趣区域池）的技术所做的事情。在其核心，RoIPool分享CNN的前向传递，以在其子区域中形成图像。在上图中，请注意如何通过从CNN的要素图中选择相应的区域来获取每个区域的CNN要素。然后，汇集每个区域中的要素（通常使用最大池）。所以我们所需要的只是原始图像的一次传递而不是~2000！

快速R-CNN洞察力2：将所有模型组合到一个网络中

快速R-CNN将CNN，分类器和边界框回归器组合成一个单一网络

Fast R-CNN的第二个见解是在单个模型中联合训练CNN，分类器和边界框回归器。之前我们有不同的模型来提取图像特征（CNN），分类（SVM）和收紧边界框（回归量），而快速R-CNN则使用单个网络来计算所有三个。

您可以在上图中看到这是如何完成的。快速R-CNN用在CNN顶部的softmax层替换SVM分类器以输出分类。它还添加了一个与softmax图层平行的线性回归图层，以输出边界框坐标。这样，所需的所有输出都来自一个网络！以下是此整体模型的输入和输出：

输入：带有区域提案的图像。

输出：每个区域的对象分类以及更严格的边界框。

2016年：更快的R-CNN - 加速地区提案

即使有了所有这些进步，快速R-CNN过程仍然存在一个瓶颈 - 区域提议者。正如我们所看到的，检测对象位置的第一步是生成一堆潜在的边界框或感兴趣的区域进行测试。在Fast R-CNN中，这些提议是使用选择性搜索创建的，这是一个相当缓慢的过程，被发现是整个过程的瓶颈。

微软研究院的首席研究员孙健带领团队领导更快的R-CNN。

在2015年中期，由Shaoqing Ren，Kaiming He，Ross Girshick和Jian Sun组成的微软研究团队找到了一种方法，通过他们（创造性地）命名为快速R-CNN的架构，使该区域提案步骤几乎免费。

更快的R-CNN的见解是区域建议取决于已经通过CNN的前向传递（分类的第一步）计算的图像的特征。那么为什么不为区域提案重用那些相同的CNN结果而不是运行单独的选择性搜索算法呢？

在Faster R-CNN中，单个CNN用于区域提议和分类。

实际上，这正是R-CNN团队更快取得的成就。在上图中，您可以看到单个CNN如何用于执行区域提议和分类。这样，只有一个CNN需要接受培训，我们几乎可以免费获得地区建议！作者写道：

我们的观察结果是，基于区域的探测器（如Fast R-CNN）使用的卷积特征图也可用于生成区域提议[从而实现几乎无成本的区域提议]。

以下是其模型的输入和输出：

输入：图像（注意不需要区域提议）。

输出：图像中对象的分类和边界框坐标。

如何生成区域

让我们花点时间看看R-CNN如何通过CNN功能更快地生成这些区域提案。Faster R-CNN在CNN的功能之上增加了一个完全卷积网络，创建了所谓的区域提案网络。

区域提案网络在CNN的功能上滑动窗口。在每个窗口位置，网络输出每个锚点的分数和边界框（因此4k框坐标，其中k是锚的数量）。

区域提议网络通过在CNN特征映射和每个窗口上传递滑动窗口来工作，输出k个潜在的边界框以及每个框预期有多好的分数。这些k盒代表什么？

我们知道人们的边界框往往是矩形和垂直的。我们可以通过创建这样的维度锚来利用这种直觉来指导我们的区域提案网络。

直觉上，我们知道图像中的对象应该适合某些常见的宽高比和大小。例如，我们知道我们想要一些类似于人类形状的矩形盒子。同样，我们知道我们不会看到很多非常薄的盒子。以这种方式，我们创建k这样的常见宽高比，我们称之为锚盒。对于每个这样的锚箱，我们输出一个边界框并在图像中的每个位置得分。

考虑到这些锚框，我们来看看这个区域提案网络的输入和输出：

输入：CNN功能图。

输出：每个锚点的边界框。表示该边界框中图像成为对象的可能性的分数。

然后，我们将可能是对象的每个这样的边界框传递到Fast R-CNN，以生成分类和收紧的边界框。

2017：Mask R-CNN - 扩展更快的R-CNN以实现像素级分割

图像实例分割的目标是在像素级别识别场景中不同的对象是什么。

到目前为止，我们已经看到我们如何能够以许多有趣的方式使用CNN功能来有效地定位带有边界框的图像中的不同对象。

我们是否可以扩展这些技术以进一步找到每个对象的精确像素而不仅仅是边界框？这个问题被称为图像分割，是Kaiming He和包括Girshick在内的一组研究人员在Facebook AI上使用一种名为Mask R-CNN的架构进行探索的。

Facebook AI的研究员Kaiming He是Mask R-CNN的主要作者，也是Faster R-CNN的合着者。

就像Fast R-CNN和Faster R-CNN一样，Mask R-CNN的潜在直觉也是直截了当的。鉴于Faster R-CNN在物体检测方面的效果非常好，我们是否可以扩展它以进行像素级分割？

在掩码R-CNN中，在快速R-CNN的CNN特征之上添加完全卷积网络（FCN）以生成掩码（分段输出）。注意这与Faster R-CNN的分类和边界框回归网络并行。

Mask R-CNN通过向更快的R-CNN添加分支来完成此操作，该分支输出二进制掩码，该Mask 表示给定像素是否是对象的一部分。与以前一样，分支（上图中的白色）只是基于CNN的特征映射之上的完全卷积网络。以下是其输入和输出：

输入：CNN功能图。

输出：矩阵在像素属于对象的所有位置上为1，在其他位置为0（这称为二进制掩码）。

但Mask R-CNN的作者不得不进行一次小调整，以使这条管道按预期工作。

RoiAlign - 重新调整RoIPool更准确

而不是RoIPool，图像通过RoIAlign传递，以便RoIPool选择的特征图的区域更精确地对应于原始图像的区域。这是必需的，因为像素级分割需要比边界框更细粒度的对齐。

当在原始的快速R-CNN架构上运行而没有修改时，Mask R-CNN作者意识到由RoIPool选择的特征图的区域与原始图像的区域略微不对准。由于图像分割需要像素级特异性，与边界框不同，这自然会导致不准确。

作者能够通过巧妙地调整RoIPool来解决这个问题，使用一种称为RoIAlign的方法进行更精确的对齐。

我们如何准确地将感兴趣的区域从原始图像映射到特征图？

想象一下，我们有一个大小为128x128的图像和一个大小为25x25的特征图。让我们想象一下，我们想要的特征区域对应于原始图像中左上角的15x15像素（见上文）。我们如何从要素图中选择这些像素？

我们知道原始图像中的每个像素对应于特征图中的~25 / 128像素。要从原始图像中选择15个像素，我们只选择15 * 25 / 128~ = 2.93像素。

在RoIPool中，我们将它向下舍入并选择2个像素，导致轻微的错位。但是，在RoIAlign中，我们避免了这种舍入。相反，我们使用双线性插值来准确了解像素2.93处的内容。这在很大程度上是允许我们避免RoIPool引起的错位的原因。

生成这些掩模后，Mask R-CNN将它们与Faster R-CNN中的分类和边界框组合在一起，生成如此精确的分割：

Mask R-CNN能够对图像中的对象进行分段和分类。

期待

在短短3年时间里，我们已经看到研究界如何从Krizhevsky等进步。al的原始结果是R-CNN，最后一直到Mask R-CNN这样强大的结果。孤立地看，像面具R-CNN这样的结果看起来像天才的难以置信的飞跃，是无法接近的。然而，通过这篇文章，我希望你已经看到这些进步如何通过多年的努力和合作实现直观，渐进的改进。R-CNN，Fast R-CNN，Faster R-CNN以及最后的Mask R-CNN提出的每个想法都不一定是量子跳跃，但它们的总和产品已经产生了非常显着的结果，使我们更接近人类水平了解视力。

让我特别兴奋的是，R-CNN和Mask R-CNN之间的时间只有三年！通过持续的资金，关注和支持，未来计算机视觉能够进一步提升？

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342