阅读笔记 PED: DETR for Pedestrian Detection

来源: arXiv:2012.06785v1
作者:清华、商汤、牛津大学和悉尼大学


image.png

摘要

主要目标:解决密集场景中目标检测漏检问题
主要贡献:

  1. 提出密集场景中使用密集的queries,然后针对于密集queries的计算负担,设计了decoder中针对于self-attention的local attention策略,称为dense queries (DQ)
  2. 针对于目标不同尺度问题,deformable DETR的queries点分布随机问题,在decoder的cross-attention中设计了 rectified attention field的临近点集选择策略;
  3. 为了缓解部分遮挡问题,提出了一种V-Match的监督方法,具体而言就是在decoder的前面若干层监督的是预测和部件之间的匹配关系,后面层监督的是预测和整体之间的关系。
  4. 为了计算dense queries与gt的KM过程的速度,提出了一种Fast-KM方法。

DETR回顾

为了后面更好的分析本文讲了啥,需要这部分内容

Decoder

本文针对的点主要是decoder部分,因为作者目标是解决密集场景检测,思路是使用密集的queries,于是将问题转化为了如何处理密集的queries,queries只出现在decoder中,所以作者主要针对于decoder部分进行改动。
将decoder的每一层形式化表达,即:


Eq1-Eq2

Eq3-Eq4

其中Eq1-Eq2表示的是self-attention所在部分, Eq3-Eq4表示的是cross-attention所在部分,对照下图Fig10很容易理解。 MSA和MCA分别表示multi-head self-attention和multi-head cross-attention, LN表示layer normalization, q表示queries. 把MSA和MCA统一形式变成Eq5-7:


Eq5-7

image.png

于是根据Eq5-7分析deformable DETR和DETR的不同点则体现在Eq
5中的关于MCA的参考点的集合\Omega_t定义和权重A_{mik}上。 DETR使用的是全部的相似位置,且权重由内积计算得到,而deformable则使用学习到的局部点集,权重是由数据直接线性映射得到。(文章也只说了deformable 的权重计算方式节省计算量,但具体谁的效果好不知道。)

方法

  1. 作者认为DETR包括deformable DETR学习出来的queries往往在前几个decoder层是稀疏的且在image空间是近似均匀的,如下图所示
    image.png

    这导致的结果就是密集场景的多个目标附近只有一个query。此时就要求模型具有两个能力:1.处理不同尺度的目标,2.密集场景需要映射分布较广的多个queries。

为了解决这个问题,作者提出使用更加密集的queries,即dense query (DQ)但此时会带来self attention计算复杂的问题,于是作者对decoder的self-attention进行了魔改,即根据空间位置选择K个local self-attention的参考样本:


Eq8-Eq9

其实这个操作本质上和deformable attention的思想是类似的。

  1. 除了self-attention模块,作者还发现DETR中在cross-attention模块每个query的keys往往分布无规律,如下图所示,有些点落在gt box之外或者其他gt中,有些分布集中在gt中间部分不够全面:
    image.png

    于是作者不使用deformable attention自主学习点集的方式,而是直接在box内均匀采点,感觉像是由deformable cnn转变为标准cnn的过程:
    image.png

    R\times R表示采点个数。
    作者统计DETR结果发现在decoder的后面3层预测的box对应的gt是一致的,因此将后面3层的deformable attention直接替换成了rectified attention field。
  2. 为了除了遮挡问题,作者认为decoder的层数递增,box也越精确,所以在低层使用了V-match的方式,即预测与可见部分的映射约束网络,后面的层则使用原本的方式。
  3. KM的提速问题,这里不清楚,猜测应该是空间上进行了约束。

问题:作者没有设计queries增多导致的cross-attention次数增多的问题,后面的实验也没有分析。

实验部分

  1. Rectified Attention Field的作用


    image.png

    这里baseline应该是#RFLayer为0的列, #RFLayer是指最后使用RF的层,发现最后3层decoder使用RF的效果最好。

  2. V-Match


    image.png

    L表示没有使用预测-可见部分配对的层数,所以L=6时时baseline,表示没有使用V-match,发现V-match能提升性能,且只是用前两层时效果最好

  3. Dense Queries


    image.png

    DQ的操作也是不同的层数使用进行对比,发现也不是越多越好。

  4. SOTA


    image.png

    image.png

结论

本文针对于Dense 场景对deformable DETR做了一些修改,主要是self-attention和cross-attention的集合范围上的改动。实验分析发现这类修改往往针对于不同的层更加有效,而不能应用到所有的decoder层上。本文的设计和实验稍显粗糙,但也是一个值得研究的方向吧。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容