2018-09-02 Learning Region Features for Object Detection

Learning Region Features for Object Detection.pdf

————————————————————
Attention Is All You Need
Relation Networks for Object Detection
Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction
1803.02155 Self-Attention with Relative Position Representations 谷歌.pdf
[1703.06211] Deformable Convolutional Networks
https://arxiv.org/abs/1703.06211
————————————————————

--Attention Is All You Need

where pos is the position and i is the dimension. That is, each dimension of the positional encoding corresponds to a sinusoid. The wavelengths form a geometric progression from 2π to 10000·2π . We chose this function because we hypothesized it would allow the model to easily learn to attend by relative positions, since for any fixed offset k , PE pos+k can be represented as a linear function of PE pos . We also experimented with using learned positional embeddings [ 9 ] instead, and found that the two versions produced nearly identical results (see Table 3 row (E)). We chose the sinusoidal version because it may allow the model to extrapolate to sequence lengths longer than the ones encountered during training.
pos是位置，我是维度。也就是说，位置编码的每个维度对应于正弦曲线。波长形成从2π到10000·2π的几何级数。我们选择了这个函数，因为我们假设它允许模型容易地学习相对位置，因为对于任何固定偏移k，PE pos + k可以表示为PE pos的线性函数。我们还尝试使用学习的位置嵌入[9]，并发现这两个版本产生了几乎相同的结果（参见表3第（E）行）。我们选择了正弦曲线版本，因为它可以允许模型外推到比训练期间遇到的序列长度更长的序列长度。
————————————————————

--Attention Is All You Need

An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key.
注意功能可以被描述为将查询和一组键值对映射到输出，其中查询，键，值和输出都是向量。输出被计算为值的加权和，其中分配给每个值的权重由查询与相应密钥的兼容性函数计算。

————————————————————

Relation Networks for Object Detection

In Eq. (10), r 1 and r 2 indicate how many times a rela- tion module is repeated. Note that a relation module also needs all proposals’ bounding boxes as input. This notation is neglected here for clarify.
在Eq。（10），r 1和r 2表示关联模块重复的次数。请注意，关系模块还需要所有提议的边界框作为输入。这里的符号在这里被忽略以便澄清。
————————————————————

Learning Region Features for Object Detection

做了啥：获取RoI特征时不再局限在RoI内，而考虑整个特征图（deformable roi pooling只是移动了bins）。geometric relation用的是Attention Is All You Need中的Positional Encoding，这样来获得4D bbox坐标和图像2D坐标之间的某种相关性；用的就是一个1*1的卷积，可能背后的哲学有点类似deformable吧，就是用特征图给自个再生成个权重（deformable中是生成个offset，stn是生成个变换系数）。为啥work：感觉是引入了更大的context？这样的话感觉可以用别的途径实现一下试试，就是说也许关键是获取RoI特征时不再局限在RoI内，而不是上面提到的具体做法（比如说可能也有别的方式获取4D bbox和2D坐标之间的关系？）另外不同的小k之间好像只有W是不一样的，结合最后对weights的可视化，貌似是得到了某种分布式表示

作者：Wayne
链接：https://www.zhihu.com/question/269181732/answer/367149156
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
————————————————————
引用原文： building connections between 4D bounding box coordinates and 2D image positions in our problem （是一种注意力，后续再深入这一点）
Learning Region Features for Object Detection - CSDN博客
https://blog.csdn.net/wayne2019/article/details/79294790
————————————————————
论文阅读笔记（三十三）：Relation Network for Object Detection - CSDN博客论文阅读笔记（三十三）：Relation Network for Object Detection
https://blog.csdn.net/sunshine_010/article/details/80042125

在这项工作中，我们第一次提出了一个适用于物体检测的attention modules。它建立在基本的attention modules之上。一个明显的区别是，原始元素是物体而不是单词。这些物体具有2D空间排列和尺度/长宽比的变化。它们的位置或一般意义上的几何特征，比起一维句子中的单词位置起着更复杂和更重要的作用。因此，所提出的模块将original attention weight扩展到两个部分：original weight和新的geometric weight。后者模拟物体之间的空间关系，只考虑它们之间的相对几何关系，使模块转换不变，这是物体识别的理想属性。新的geometric weight在我们的实验中证明很重要。

该模块被称为object relation module。它具有attention modules的相同优点。它需要可变数量的输入，并行运行（而不是sequential relation modeling[29,44,6]），是完全可微分的，并且是 in-place（输入和输出之间没有维度变化）。因此，它可以灵活地用作任何架构中的基本构建块。

原则上，我们的方法与大多数（如果不是全部的话）基于CNN的目标检测方法有根本的不同并且可以对其进行补充。它利用了一个新的维度：一组物体被同时处理，推理和相互影响，而不是单独识别

原则上，我们的方法与大多数（如果不是全部的话）基于CNN的目标检测方法有根本的不同并且可以对其进行补充。它利用了一个新的维度：一组物体被同时处理，推理和相互影响，而不是单独识别。

object relation module是通用的，不限于物体检测。我们没有看到任何理由阻止它在视觉任务中找到更广泛的应用，例如nstance segmentation [30], action recognition [41], object relationship detection [28], caption [50], VQA [1]等。

后处理中的物体关系大多数早期的工作使用物体关系作为后处理步骤[12,17,46,47,36,17]。通过考虑物体关系对检测到的物体进行re-scored。例如，DPM [15]使用co-occurrence表示两个物体类可能存在于同一图像中的可能性，以提炼物体scores。随后的方法[7,36]考虑更多复杂的关系模型，考虑更多的位置和大小[3]。我们引用读者[16]进行更详细的调查。这些方法在深度学习时代取得了稳健的成功，但在深度通信网络中并未证明有效。一个可能的原因是深层ConvNets通过大感受野隐含地结合了contextual信息。
论文阅读笔记（三十三）：Relation Network for Object Detection
————————————————————
2018/9/1 17:42:06
————————————————————
目标检测论文阅读：Relation Networks for Object Detection - CSDN博客
https://blog.csdn.net/qq_21949357/article/details/80369848
记忆如阳：博主你好，我有个问题想请教你。几何特征是bbox的四维坐标，那外观特征fA（典型的1024维），这里的fA是怎么计算出来的，文中说fA取决于不同的任务，那么对于recognition和duplicate removal两个任务，fA分别是怎么计算的呢？
回复记忆如阳： recognition本质上是用融合了位置关系特征和原有的Roi的特征的融合后特征，去代替简单的Roi特征，这个部分输入的fa应该是Roi的特征；至于duplicate removal，可以看figure 3也就是博客3部分第一张图，relation一个输入是bbox，另一个输入是融合了fn和score后的特征，就对应了fA。

————————————————————

目标检测论文阅读：Relation Networks for Object Detection - CSDN博客
https://blog.csdn.net/qq_21949357/article/details/80369848
’‘’‘公式详细

Object Relation Module
这个模块的特点就是联合所有object的信息来提升每个object recognition的准确性。它的模块示意图如下图所示：

‘解释最详细
’

解释下，这里的fnAfAn代表第n个物体的apperance特征，其实就是物体自身的大小、颜色、形状这些外观上的特征，而fnGfGn对应的是是第n个物体的geometry特征，代表物体的位置和大小(bounding box)。这里有多个relation模块（数量为NrNr），可以类比神经网络中我们每层都会有很多不同的通道，以便于学习不同种类的特征……每个relaiton模块都用所有object的两个特征做输入，得到不同的relaiton特征后再concat，并和物体原来的特征信息融合，作为物体的最终特征……
那么右面的图怎么理解呢？看下面的公式：

————————————————————
Relation Networks for Object Detection [CVPR 2018] - CSDN博客
https://blog.csdn.net/Julialove102123/article/details/80462569
--详细比上篇详细相似

Object Relation Module
这个模块的特点就是联合所有object的信息来提升每个object recognition的准确性。它的模块示意图如下图所示：
作者设计的 Attention 权重由两部分组成，外观特征关系权重和空间关系权重。
解释下，这里的 f_A^n 代表第n个物体的apperance特征，其实就是物体自身的大小、颜色、形状这些外观上的特征，而 f_G^n 对应的是是第n个物体的geometry特征，代表物体的位置和大小(bounding box)。这里有多个relation模块（数量为 N_r ），可以类比神经网络中我们每层都会有很多不同的通道，以便于学习不同种类的特征……每个relaiton模块都用所有object的两个特征做输入，得到不同的relaiton特征后再concat，并和物体原来的特征信息融合，作为物体的最终特征……

————————————————————

后RCNN时代的物体检测及实例分割进展 | 机器之心
https://www.jiqizhixin.com/articles/2018-01-27-7

————————————————————

微软研究院AI头条
https://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649444647&idx=1&sn=3cb7f25d1e55958c0d2e88a39f6643e7&chksm=82c0b8a3b5b731b5796f07d1f9d88c545f1e5464326a4797640cd88eebd362276df17a303119

微软亚洲研究院与北京大学共同提出用于物体检测的可学习区域特征提取模块 | 机器之心
https://www.jiqizhixin.com/articles/2018-08-14

————————————————————
’‘’‘Relation Networks for Object Detection解读 - CSDN博客
https://blog.csdn.net/u013010889/article/details/79495029
---详细

Deep Learning Object Detection - CSDN博客
https://blog.csdn.net/red_ear/article/details/81334523

Learning Region Features for Object Detection - CSDN博客
https://blog.csdn.net/wayne2019/article/details/79294790

(12 条消息)如何评价Learning Region Features for Object Detection? - 知乎
https://www.zhihu.com/question/269181732

后RCNN时代的物体检测及实例分割进展 | 机器之心
https://www.jiqizhixin.com/articles/2018-01-27-7

目标检测论文阅读：Relation Networks for Object Detection - CSDN博客
https://blog.csdn.net/qq_21949357/article/details/80369848
---公式详细

’‘’‘Relation Networks for Object Detection [CVPR 2018] - CSDN博客
https://blog.csdn.net/Julialove102123/article/details/80462569
---详细

’‘’‘Relation Networks for Object Detection源码解读（网络结构细节） - CSDN博客
https://blog.csdn.net/u014380165/article/details/80779712
---详细重要

论文阅读笔记（三十三）：Relation Network for Object Detection - CSDN博客
https://blog.csdn.net/sunshine_010/article/details/80042125

目标检测论文阅读：Relation Networks for Object Detection - CSDN博客
https://blog.csdn.net/qq_21949357/article/details/80369848

Relation Networks for Object Detection重点解读 - CSDN博客
https://blog.csdn.net/tommorrow12/article/details/80755443

论文阅读-《Relation Networks for Object Detection》 - CSDN博客
https://blog.csdn.net/yaoqi_isee/article/details/78696954

Relation Networks for Object Detection源码解读（网络结构细节）

https://blog.csdn.net/u014380165/article/details/80779712
论文：Relation Networks for Object Detection
论文链接：https://arxiv.org/abs/1711.11575
代码链接：https://github.com/msracver/Relation-Networks-for-Object-Detection

Relation Networks for Object Detection [CVPR 2018] - CSDN博客
https://blog.csdn.net/Julialove102123/article/details/80462569