论文地址:https://arxiv.org/pdf/2007.11056.pdf
论文源码:https://github.com/MegviiBaseDetection/BorderDet
简述
密集物体检测器依赖于滑动窗口范式,可以在规则的图像网格上预测物体。同时,采用网格点上的特征图来生成边界框预测。点特征使用方便,但可能缺乏精确定位的明确边界信息。本篇论文作者提出了一种简单高效的算子,称为 Border-Align,从边界的极值点提取“边界特征”以增强点特征。基于BorderAlign,研究者设计了一种称为BorderDet的新型检测架构,它明确利用边界信息进行更强的分类和更准确的定位。
背景
滑窗法作为一种经典的物体检测方法,个人认为不同大小的窗口在图像上进行滑动时候,进行卷积运算后的结果与已经训练好的分类器判别存在物体的概率。选择性搜索(Selective Search)是主要运用图像分割技术来进行物体检测。
通过滑窗法流程图可以很清晰理解其主要思路:首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的物体标记,这些窗口大小会存在重复较高的部分,最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终,经过NMS筛选后获得检测到的物体。
新框架分析
滑动窗口目标检测器通常在密集的、规则的特征图网格上生成边界框预测。如上图所示,网格每个点上的特征一般用于预测目标的类别和位置。这种基于点的特征表示很难包含有效的边界特征,并且可能会限制目标检测器的定位能力。对于两阶段目标检测器,目标由从整个边界框中提取的区域特征来描述,如上图(b)所示。这种基于区域的特征表示能够为目标分类和定位提供比基于点的特征表示更丰富的特征。
在上表中,研究者对边界框的特征表示进行了更深入的分析。首先,采用一个简单的密集目标检测器(FCOS)作为新框架的基线来生成粗边界框预测。
Border Align
受R-FCN的启发,新框架的BorderAlign以具有(4 + 1)C通道的边界敏感特征图I作为输入。特征图的4C通道对应四个边界(左、上、右、下)。
边界上的橙色圆圈表示极值点。'Single Point', 'Left Border', 'Top Border', 'Right Border' 和 'Bottom Border'的特征图是边界敏感特征图的每个 C 通道的最大特征值。
新方法也可以作为典型的两级检测器的更好的候选生成器。 研究者将边界对齐模块添加到RPN并将新结构表示为BorderRPN。BorderRPN的架构如上图所示。保留RPN中的回归分支来预测粗边界框位置。RPN中的第一个3 × 3卷积被替换为3 × 3空洞卷积以增加有效感受野。
实验
在某种程度上,可证明BorderAlign确实在提取边界极限的特征,且边界极限点的特征对物体的精准定位确实有一些帮助。