阅读笔记-LSTS Learning where to focus for efficient video object detection

来源: ECCV 2020
代码: mxnet

image.png

Abstract

由于帧间质量问题,比如部件遮挡、特殊姿势以及运动模糊问题,导致基于图像的检测器用于视频是往往很难取得较好的性能。之前方法往往利用光流补偿进行特征的传递和聚合进行基于视频的目标检测。但是在高层语义特征上使用基于图像的光流可能很难建立精确的空间依赖。因此本文提出了一种称为 可学习的时空采样(Learnable Spatio-Temporal Sampling, LSTS) 模块 用于学习相邻帧特征之间语义层次的依赖关系。采样的位置首先进行随机的初始化,然后利用检测监督信号迭代的更新模型以找到更好空间依赖。另外,本文还提出了一种稀疏递归特征更新(Sparsely Recursive Feature Updating, SRFU)以及 密集特征聚合(Dense Feature Aggregation (DFA))以建模时序信息和增强每一帧的特征。不吹不擂,提出的方法在ImageNet VID数据集上使用了少量了计算代价和实时速度获得SOTA的检测性能。

Introduction

视频目标检测中直接使用逐帧目标检测经常受制于不见遮挡、怪异姿势和运动模糊。而作为运动线索,视频中的时序信息能够提升目标检测的性能。

之前使用时序信息的方法可以分为两种:1.用于后处理,使得检测结果更加连贯。比如检测结束后使用tracker或者光流进行box层次的匹配;2.另一种是特征层面的时序信息的处理。主要思路是融合相邻帧的特征以提升检测精度或者传递特征以避免密集的特征抽取过程以提升速度。

当使用帧间特征传递时。往往需要光流补偿。光流补偿就会有如下几个问题:

  • 光流会极大增加模型的参数量,对嵌入式设备不友好;
  • 光流法难以精确表示高层语义特征的依赖性。因为高层特征的感受野比较大,较小的位移都会对应着图像层次的大范围内的偏差;
  • 光流法计算耗时严重。

本文的贡献点:

  • Learnable Spatio-Temporal Sampling (LSTS)模块,用于刻画高层特征跨帧传递;
  • Sparsely Recursive Feature Updating (SRFU)模块用于建模时序关系, Dense Feature Aggregation(DFA)用于增强特征表示;
  • 在VID数据集上获得SOTA的性能和速度平衡结果。

Related Work

Self-attention for feature propagation.

这两年attention机制被广泛使用,self-attention和non-local被用于刻画语言序列和抓取长时依赖。attention可以看作是将一个query和一组key对映射成一个输出的过程。利用attention的形式,可以很容易扩展于建模帧间特征关系。但帧间的运动往往集中的局部邻域内,而不是整个区域,因此MatchTrans提出以local non-local的方式传递帧间特征。但MatchTrans需要精心设计数据集的motion分布。本文提出的LSTS模块能够自适应的学习采样位置。能够更精确的估计帧间特征依赖。

Methodology

Learnable Spatio-Temporal Sampling

LSTS

这个操作还是很清晰的。给定两帧图像的高层特征F_t, F_{t+k},
对两个特征进行进一步的特征变换f(F_t), g(F_{t+k}), 对于g(F_{t+k})中的任意位置P在f(F_t)的位置P周围以DCN的方式学习若干偏移量,使用线性插值的方式计算偏移后位置的特征f(F_t)_{q_n} = \sum_q G(p_n, q)\cdot F(F_t)_q,其中G(,)表示双线性插值, 然后计算每个位置的特征与query特征g(F_{t+k})_p的相似度s(p_n} = sim(f(F_t)_{p_n}, g(F_{t+k})_p)作为每个特征的权重,然后归一化权重进行特征的加权:
image.png

于是F_{t+k}'在p0处的特征为:
image.png

注意这里只是特征的融合,没有non-local结构中的skip connection。

梯度反传过程和DCN原理一样,都依赖于双线性插值对位置的操作。

Sparsely Recursive Feature Updating

SRFU and DFA

SRFU是用来传递和融合video中稀有的关键帧的高层特征,这是sparsely这个词的原因。具体而言,如上图a,Fmemory类似于LSTM中的历史信息,是更新变化的。于是对于关键帧F_t1需要与历史信息进行融合,即采用LSTS结构进行融合,这里的F_{t^1}, F^{memory},F_{t^1}^{align}即使上一节中的F_{t+k}, F_t, F_{t+k}', 然后通过skip connection将当前帧特征和对齐特征通过一个aggregation unit单元进行再次融合。值得注意的是,这里aggregation unit采用了spatial attention的形式,即由F_{t^1}, F_{t^1}^{align}生成了位置权重W_{t^1}\in R^{h\times w}, W_{t^1}^{align} = 1- W_{t^1}, 所以更新后的memory特征为:
image.png

And the memory feature Fmemory together with Ft1 would be aggregated to generate the task feature for the keyframes.

这句如何计算F_{t^1}^{task}的描述过于模糊,只看论文不知道如何计算的。

Dense Feature Aggregation

SRFU处理的是key frame的高层特征,而从计算资源考虑,non-keyframes一般考虑使用轻量的特征抽取网络提取low-level特征,然后结合Fmemory特征进行变换到task feature。如上图b所示,对于non-keyframes的low-level特征先通过一个transform单元获得粗糙的高层次语义特征,然后和SRFU一样,使用memory特征去融合当前高层予以特征,同样获得task feature map。 不同点在于non-keyframes不用于更新memory feature。

Experiments

details

  • 检测器框架 R-FCN with ResNet-101, 其中conv4_3的特征认为是low-level特征, 整个ResNet特征认为是high-level特征
  • Aggregration Unit。 随机初始化的卷积层: 3x3x256, 1x1x16,1x1x1
  • Transform: 随机初始化卷积层: 3x3x256, 3x3x512, 3x3x1024

对VID不了解,所以不看与SOTA方法的对比了,看下ablation study结果吧。


image.png

网络结构配置描述的不是很清楚,好多不知道怎么做的。。。那就值来对比部分模块的作用吧。

  1. keyframe memory update和quality-aware memory update相比,本文方法只有0.1的差距,表明公式7中的spatial attention的作用并不明显
  2. non-keyframe transformer 使用与否只是0.1的变化,表示底层特征也能很好的用memory feature进行对齐?
  3. non-keyframe aggregration使用与否性能差距明显,但不知道不适用non-keyframe aggregration的话 non-keyframe特征怎么计算的,指利用F_{t+k}^{low}吗?
  4. 有一个地方需要注意,对于non-keyframe, spatial attention的作用比较明显,性能提升了0.7个点((e),(f)列), 不适用transformer时,spatial attention后map提升0.4个点(d,f). 说明对于non-keyframe的特征融合,自适应的权重会更好。(原因在于non-keyframe相对于memory特征更coarse吧,不知道作者有没有尝试fix权重不设置为0.5,而是侧重memory试一试)
image.png

和non-local的对比,验证了时序关系更侧重于邻域之间的元素变化。


image.png

使用不同的初始化位置点,发现使用可学习方式的性能都会提升,使用gaussian的方式提升更明显。(个人觉得背后原因在于gaussian初始化的点更聚焦在中心,初始特征更充分。)

Conclusion

本文的主要贡献点是LSTS的构造,是一种可学习的跨帧 local attention设计,个人感觉可以应用的图像分割上。在LSTS基础上构建了SRFU和DFA模块分别处理keyframe和non-keyframe的特征融合。其实按重要性而言, SRFU主要是利用keyframe更新memory特征,而non-keyframe则是在memory特征上进行细节的修正。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容