目标检测背景学习

OBJECT DETECTION目标检测

主流算法

目标检测模型分为两类。一类是two-stage，将物体识别和物体定位分为两个步骤，分别完成，这一类的典型代表是R-CNN, fast R-CNN, faster-RCNN家族。他们识别错误率低，漏识别率也较低，但速度较慢，不能满足实时检测场景。为了解决这一问题，另一类方式出现了，称为one-stage, 典型代表是Yolo, SSD, YoloV2等。他们识别速度很快，可以达到实时性要求，而且准确率也基本能达到faster R-CNN的水平。（物体识别与分类主流算法：Lenet5 AlexNet VGG Inception ResNet）

目标检测（Object detection）发展

早期的目标检测方法通常是通过提取图像的一些 robust 的特征（如 Haar、SIFT、HOG 等），使用 DPM （Deformable Parts Model）模型，用滑动窗口（silding window）的方式来预测具有较高 score 的 bounding box。这种方式非常耗时，而且精度又不怎么高。

后来出现了object proposal方法（其中selective search为这类方法的典型代表），相比于sliding window这中穷举的方式，减少了大量的计算，同时在性能上也有很大的提高。利用 selective search的结果，结合卷积神经网络的R-CNN出现后，Object detection 的性能有了一个质的飞越。基于 R-CNN 发展出来的 SPPnet、Fast R-CNN、Faster R-CNN 等方法，证明了 “Proposal + Classification” 的方法在 Objection Detection 上的有效性。

相比于 R-CNN 系列的方法，本论文提供了另外一种思路，将 Object Detection 的问题转化成一个 Regression 问题。给定输入图像，直接在图像的多个位置上回归出目标的bounding box以及其分类类别。

YOLO是一个可以一次性预测多个Box位置和类别的卷积神经网络，能够实现端到端的目标检测和识别，其最大的优势就是速度快。事实上，目标检测的本质就是回归，因此一个实现回归功能的CNN并不需要复杂的设计过程。YOLO没有选择滑动窗口（silding window）或提取proposal的方式训练网络，而是直接选用整图训练模型。这样做的好处在于可以更好的区分目标和背景区域，相比之下，采用proposal训练方式的Fast-R-CNN常常把背景区域误检为特定目标。

Faster R-CNN、R-FCN和SSD 原理介绍

Faster R-CNN

主要分为四个步骤

1. 卷积层。原始图片先经过conv-relu-pooling的多层卷积神经网络，提取出特征图。供后续的RPN网络和全连接层使用。faster R-CNN不像R-CNN需要对每个子图进行卷积层特征提取，它只需要对全图进行一次提取就可以了，从而大大减小了计算时间。

2. RPN层，region proposal networks。RPN层用于生成候选框，并利用softmax判断候选框是前景还是背景，从中选取前景候选框（因为物体一般在前景中），并利用bounding box regression调整候选框的位置，从而得到特征子图，称为proposals。

3. ROI层，fast R-CNN中已经讲过了ROI层了，它将大小尺寸不同的proposal池化成相同的大小，然后送入后续的全连接层进行物体分类和位置调整回归

4. 分类层。利用ROI层输出的特征图proposal，判断proposal的类别，同时再次对bounding box进行regression从而得到精确的形状和位置。

使用VGG-16卷积模型的网络结构如下图

卷积层

卷积层采用的VGG-16模型，先将PxQ的原始图片，缩放裁剪为MxN的图片，然后经过13个conv-relu层，其中会穿插4个max-pooling层。所有的卷积的kernel都是3x3的，padding为1，stride为1。pooling层kernel为2x2, padding为0，stride为2。

MxN的图片，经过卷积层后，变为了(M/16) x (N/16)的feature map了。

RPN层

faster R-CNN抛弃了R-CNN中的选择性搜索（selective search）方法，使用RPN层来生成候选框，能极大的提升候选框的生成速度。RPN层先经过3x3的卷积运算，然后分为两路。一路用来判断候选框是前景还是背景，它先reshape成一维向量，然后softmax来判断是前景还是背景，然后reshape恢复为二维feature map。另一路用来确定候选框的位置，通过bounding box regression实现，后面再详细讲。两路计算结束后，挑选出前景候选框（因为物体在前景中），并利用计算得到的候选框位置，得到我们感兴趣的特征子图proposal。

> 候选框的生成 anchors

卷积层提取原始图像信息，得到了256个feature map，经过RPN层的3x3卷积后，仍然为256个feature map。但是每个点融合了周围3x3的空间信息。对每个feature map上的一个点，生成k个anchor（k默认为9）。anchor分为前景和背景两类（我们先不去管它具体是飞机还是汽车，只用区分它是前景还是背景即可）。anchor有[x,y,w,h]四个坐标偏移量，x,y表示中心点坐标，w和h表示宽度和高度。这样，对于feature map上的每个点，就得到了k个大小形状各不相同的选区region。

> softmax判断选区是前景还是背景

对于生成的anchors，我们首先要判断它是前景还是背景。由于感兴趣的物体位于前景中，故经过这一步之后，我们就可以舍弃背景anchors了。大部分的anchors都是属于背景，故这一步可以筛选掉很多无用的anchor，从而减少全连接层的计算量。

对于经过了3x3的卷积后得到的256个feature map，先经过1x1的卷积，变换为18个feature map。然后reshape为一维向量，经过softmax判断是前景还是背景。此处reshape的唯一作用就是让数据可以进行softmax计算。然后输出识别得到的前景anchors。

> 确定候选框位置

另一路用来确定候选框的位置，也就是anchors的[x,y,w,h]坐标值。如下图所示，红色代表我们当前的选区，绿色代表真实的选区。虽然我们当前的选取能够大概框选出飞机，但离绿色的真实位置和形状还是有很大差别，故需要对生成的anchors进行调整。这个过程我们称为bounding box regression。

假设红色框的坐标为[x,y,w,h], 绿色框，也就是目标框的坐标为[Gx, Gy,Gw,Gh], 我们要建立一个变换，使得[x,y,w,h]能够变为[Gx, Gy,Gw,Gh]。最简单的思路是，先做平移，使得中心点接近，然后进行缩放，使得w和h接近.

> 输出特征子图proposal

得到了前景anchors，并确定了他们的位置和形状后，我们就可以输出前景的特征子图proposal了。步骤如下

1. 得到前景anchors和他们的[x y w h]坐标

2. 按照anchors为前景的不同概率，从大到小排序，选取前pre_nms_topN个anchors，比如前6000个

3. 剔除非常小的anchors

4. 通过NMS非极大值抑制，从anchors中找出置信度较高的。这个主要是为了解决选取交叠问题。首先计算每一个选区面积，然后根据他们在softmax中的score（也就是是否为前景的概率）进行排序，将score最大的选区放入队列中。接下来，计算其余选区与当前最大score选区的IOU（IOU为两box交集面积除以两box并集面积，它衡量了两个box之间重叠程度）。去除IOU大于设定阈值的选区。这样就解决了选区重叠问题

5. 选取前post_nms_topN个结果作为最终选区proposal进行输出，比如300个。

经过这一步之后，物体定位应该就基本结束了，剩下的就是物体识别了

ROI Pooling层

和fast R-CNN中类似，这一层主要解决之前得到的proposal大小形状各不相同，导致没法做全连接。全连接计算只能对确定的shape进行运算，故必须使proposal大小形状变为相同。通过裁剪和缩放的手段，可以解决这个问题，但会带来信息丢失和图片形变问题。我们使用ROI pooling可以有效的解决这个问题。

ROI pooling中，如果目标输出为MxN，则在水平和竖直方向上，将输入proposal划分为MxN份，每一份取最大值，从而得到MxN的输出特征图。

分类层

ROI Pooling层后的特征图，通过全连接层与softmax，就可以计算属于哪个具体类别，比如人，狗，飞机，并可以得到cls_prob概率向量。同时再次利用bounding box regression精细调整proposal位置，得到bbox_pred，用于回归更加精确的目标检测框。

这样就完成了faster R-CNN的整个过程了。算法还是相当复杂的，对于每个细节需要反复理解。faster R-CNN使用resNet101模型作为卷积层，在voc2012数据集上可以达到83.8%的准确率，超过yolo ssd和yoloV2。其最大的问题是速度偏慢，每秒只能处理5帧，达不到实时性要求。

Ref: 一文读懂目标检测AI算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2

Faster R-CNN准确率mAP较高，漏检率recall较低，但速度较慢。

yolo则相反，速度快，但准确率和漏检率不尽人意。

SSD综合了他们的优缺点，对输入300x300的图像，在voc2007数据集上test，能够达到58 帧每秒( Titan X 的 GPU )，72.1%的mAP。

当前目标检测模型算法也是层出不穷。在two-stage领域，2017年Facebook提出了mask R-CNN。CMU也提出了A-Fast-RCNN 算法，将对抗学习引入到目标检测领域。Face++也提出了Light-Head R-CNN，主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度。

one-stage领域也是百花齐放，2017年首尔大学提出 R-SSD 算法，主要解决小尺寸物体检测效果差的问题。清华大学提出了 RON 算法，结合 two stage 名的方法和 one stage 方法的优势，更加关注多尺度对象定位和负空间样本挖掘问题。

Object Segmentation: Mask R-CNN

FasterRCNN 提升分类精度

目标识别&分类

一文读懂物体分类AI算法：LeNet-5 AlexNet VGG Inception ResNet MobileNet

AlexNet的结构特点为

1. 采用relu替代了tanh和sigmoid激活函数。relu具有计算简单，不产生梯度弥散等优点，现在已经基本替代了tanh和sigmoid

2. 全连接层使用了dropout来防止过拟合。dropout可以理解为是一种下采样方式，可以有效降低过拟合问题。

3. 卷积-激活-池化后，采用了一层LRN，也就是局部响应归一化。将一个卷积核在(x,y)空间像素点的输出，和它前后的几个卷积核上的输出做权重归一化。(LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力. 归一化后有什么好处呢？原因在于神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因。)

4. 使用了重叠的最大值池化层。3x3的池化核，步长为2，因此产生了重叠池化效应，使得一个像素点在多个池化结果中均有输出，提高了特征提取的丰富性

5. 使用CUDA GPU硬件加速。训练中使用了两块GPU进行并行加速，使得模型训练速度大大提高。

6. 数据增强。随机的从256x256的原始图片中，裁剪得到224x224的图片，从而使一张图片变为了(256-224)^2张图片。并对图片进行镜像，旋转，随机噪声等数据增强操作，大大降低了过拟合现象。

ResNet

ResNet由微软提出，并夺得了2015年ILSVRC大赛的冠军。它以152层的网络深度，将错误率降低到只有3.57%，远远低于5.1%的人眼识别错误率。它同样利用全局平均池化来代替全连接层，使得152层网络的模型不至于太大。网络中使用了1x1 3x3 5x5 7x7等不同尺寸的卷积核，从而提高卷积的多样性。resNetV1_152模型大小为214M，不算太大。

随着网络的加深，会出现了训练集上准确率下降的现象，我们可以确定这不是由于Overfit过拟合造成的(过拟合的情况，训练集上应该准确率很高)；所以作者针对这个问题提出了一种全新的网络，叫深度残差网络，它允许网络更深，其中引入了全新的结构

残差指的是什么？

其中ResNet提出了两种mapping：一种是identity mapping，x，指的就是图1中”弯弯的曲线”，另一种residual mapping，F(x)，指的就是除了”弯弯的曲线“之外的那部分，两部分相加组成了最后的输出：y=F(x)+x

identity mapping：顾名思义，就是指本身，也就是公式中的x

residual mapping：指的是“差”，也就是y?x，所以残差指的就是F(x)部分。

理论上，对于“随着网络加深，准确率下降”的问题，Resnet提供了两种选择方式，也就是identity mapping和residual mapping，如果网络已经到达最优，继续加深网络，residual mapping将被push为0，只剩下identity mapping，这样理论上网络一直处于最优状态了，网络的性能也就不会随着深度增加而降低了。

Google Inception

Google Inception是一个大家族，包括inceptionV1 inceptionV2 inceptionV3 inceptionV4等结构。它主要不是对网络深度的探索，而是进行了网络结构的改进。

> InceptionV1

inceptionV1是一个设计十分精巧的网络，它有22层深，只有500万左右的参数量，模型大小仅为20M左右，但错误率却只有6.7%。它的网络结构特点如下

1. 去除了最后的全连接层，而使用全局平均池化来代替。这是模型之所以小的原因。AlexNet和VGG中全连接几乎占据了90%的参数量。而inceptionV1仅仅需要1000个参数，大大降低了参数量

2. inception module的使用。借鉴与Network in Network的思想，提出了inception module的概念，允许通道并联来组合特征。其结构如下

inception module分为并联的四路，分别为单独的1x1卷积，1x1并联3x3, 1x1并联5x5, 池化后1x1卷积。使用不同的卷积结构来提取不同特征，然后将他们组合在一起来输出。

使用了1x1,3x3,5x5等不同尺寸的卷积，增加了提取特征面积的多样性，从而减小过拟合

最后编辑于：2018.08.23 17:00:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342