【Paper Reading】Learning Human-Object Interaction Detection using Interaction Points

标题

Learning Human-Object Interaction Detection using Interaction Points

作者

Tiancai Wang, Tong Yang, Martin Danelljan, Fahad Shahbaz Khan, Xiangyu Zhang, Jian Sun

单位

MEGVII Technology
ETH Zurich, Switzerland
IIAI, UAE
Linkoping University, Sweden

出版单位

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition)

论文下载地址

https://arxiv.org/pdf/2003.14023.pdf

代码开源地址

https://github.com/vaesl/IP-Net

数据集

HICO-det dataset
V-COCO dataset
V-COCO paper

摘要

对图像内容超越实例层面的语义理解，已成为计算机视觉领域基本问题之一。人-物交互（HOI）检测属于视觉关系检测的一种，该任务不仅定位图像中的人和物体，还需要推理出人和物体之间的交互关系，比如[人吃苹果]、[人驾驶汽车]等。
理解人与物体之间的相互作用是视觉分类的基本问题之一，也是实现详细场景理解的重要步骤。人与物体之间的交互（HOI）检测力求既定位人与物体，又确定它们之间的复杂交互。
由于一张图像可能包含多个人做同一类交互，一个人同时交互多个物体、多个人共享同一个交互物体，还可能存在细粒度交互的情况，导致HOI检测颇具挑战性。这些复杂而多元的交互场景给HOI检测方案的设计带来了巨大困难。
大多数现有方法以三元组（人，动作，物体）的形式检测人-物交互，并将该问题分解成两部分：物体检测和交互识别。物体检测方面，通过一个预训练的物体检测器检测出人和物体；对于交互识别，相关文献提出了若干个策略。

图1 大多数现有方法（a）与本文方法（b）示意图对比
现有大多数HOI检测方法使用多支路架构（见图1（a））识别交互关系。多支路架构通常包含三个独立的支路：人体支路、物体支路和配对支路。人体和物体支路分别编码人和物的外观特征，而配对支路旨在编码人和物的空间关系。接着，三个支路各自的得分进行融合，用于交互识别。
尽管提高了HOI检测性能，基于上述多支路架构的当前最佳方法是计算昂贵的。训练时，这些以实例为中心的方法需要配对所有的人和物体，来学习正/负人-物对。这意味着推理时间会随着人-物实例数量呈二次方增长，因为所有的人-物对都需要经过一遍网络，以获得最后的交互得分。
除了计算昂贵之外，这些方法还明显依赖于外观特征和一个简单的配对支路，其中配对支路是把两个框（人和物）结合起来组成一个二值图像表征来编码空间关系。本文认为，仅仅依赖于表面特征和粗糙的空间信息不足以应对复杂的交互场景，往往会造成不准确的预测。
作者认为，仅外观特征不足以捕获复杂的人与物体的相互作用。因此，在本文中，作者提出了一种新颖的全卷积方法，该方法直接检测人与物体之间的交互作用。提出的网络会预测交互点，这些交互点可以直接对交互进行定位和分类。与密集预测的交互向量配对，这些交互与人类和物体检测相关联以获得最终预测。
本文提出了一个全新的方法用于HOI检测。受最近anchor-free物体检测算法的启发，本文提出把HOI检测看作关键点检测和分组问题（见图1（b））。该方法直接把人-物对之间的交互检测为一系列交互点，并基于这些交互点学习出指向人和物体中心点的交互向量。
本文进一步提出交互匹配方案，对交互点、交互向量和物体检测分支产生的人和物体检测框进行匹配，从而获得最后的交互预测。在两个HOI检测数据集（V-COCO和HICO-DET）上的大量实验表明，该方法大幅超越现有的以实例为中心的方法，取得当前最佳结果。

总体结构

分为3个部分，特征提取部分、交互生成部分（生成交互点、交互向量）、交互分组部分（根据预测框，交互点，交互向量得到最终结果）。
Backone网络使用的是Hourglass网络（ECCV2016的工作），使用Faster RCNN + ResNet50-FPN获得预测框。

Hourglass网络输出的特征图大小为

其中H,W是输入图像的高度和宽度，S是步幅，D是输出通道（S设置为4）。交互点定义为人-物对的中心点，且是交互向量的起点。最终，交互点和交互向量联合已检测的人、物检测框输入至交互匹配模块，得到最终的HOI三元组（人，动作，物体）预测。

本文HOI检测框架示意图，包含一个定位和交互预测阶段

交互生成

例图像中交互点和交互向量的图示

交互生成模块包含两个并行的分支：交互点分支和交互向量分支。两个分支均以提取自backbone的特征作为输入。

交互点分支

输入提取的特征，用单个3*3卷积，生成大小为

的交互点热图。C表示交互种类的数量。
训练时，交互点由人和物中心点生成的GT高斯热图监督，推理时采用高斯热图的峰值的top-k个点（cornernet中的方式）。
不同于目标检测的一个点只能代表一个物体，本文一个点可以为多个交互类别（人同时与多个物体交互）。
注意，在anchor-free物体检测框架中，单个关键点只能表示一个物体类别。不同于物体检测，在HOI检测中，单一关键点定位可以对应多个交互类别，因为给定一个物体，人可以与之有多个交互关系。这里的交互点是针对有对应物体的交互类别所定义的，对于没有对应物体的交互类别，比如「走路」、「微笑」等，则直接定义人的中心点为交互点。

交互向量分支

交互向量分支预测指向人类中心点的交互向量

交互点的定义：

交互向量的定义:

输入提取的特征，使用单个3*3卷积生成无符号交互向量图V，大小为

两个值，一个作用于水平方向，一个作用于垂直方向。

推理时，根据下式，生成4个人类中心的可能位置：

交互分组

满足

条件的分为一组。

分组策略：

图中，四个绿色点由

计算出；紫色的四个点由人/物框确定；然后基于这八个点计算向量长度。

然后以上的值满足下式则为正例：

d_t为过滤时的阈值。
算法表示：

训练

预测交互点的loss采用和anchor-free检测器一样的改动的focal loss：

N_p 是图中的交互点数量。

对于交互向量预测，使用在交互点P_k上的无符号交互向量的值

作为GT。这部分使用的是L1 loss：

V_pk是在点P_k预测的交互向量。
总的损失函数：

λ_v设置为0.1.

和SOTA(state-of-the-art)实验对比

检测分支在COCO上预训练，使用人的预测框置信度大于0.4，物体的预测框置信度大于0.1，设置的低是因为分组可以过滤掉大量的负例。

IPnet在V-COCO上的效果

V-COCO数据集上的对比结果(mAP_role)

IPnet在HICO-det的效果，最后一行表示在HICO-DET上预训练，再在V-COCO上微调，测试。

HICO-DET数据集上的对比结果(mAP_role)

消融实验（ablation study）分析

image

Angle-filter：交互点p与人体中心点H和物体中心点O具有固定结构。过滤掉在向量PH和PO之间的小于阈值的HOI对。
Dist-ratio-filter：在训练时，PH和PO的比例设置为1，过滤掉比例在max（PH,PO)和min（PH,PO）之间的HOI对。
交互分组策略分为两部分，interaction-box和corner-dist，来验证三个软约束

image

的效果。
interaction-box和corner-dist分别是前两个式子和最后一个式子。
发现仅仅interaction-box + interaction points就获得了巨大提升。再加上corner-dist也获得了挺大的提升。

Center pool
centernet中的中心池化，在交互点和交互向量之前使用，略有改善性能。

image

稀有类和非稀有类的交互合适的分数阈值应该是不同的，因为稀有类样本较少，所以分数一般较低。因此动态阈值获得了不错的效果。

局限

长尾类对于人物交互检测具有较大挑战。
多个HOI对不能共享相同的交互点，但这种情况很少见。

参考文献

[1] Yuwei Chao, Yunfan Liu, Xieyang Liu, Huayi Zeng, and Jia Deng. Learning to detect human-object interactions. InWACV, 2018.
[2] Chen Gao, Yuliang Zou, and Jia-Bin Huang. iCAN: Instance-centric attention network for human-object interac- tion detection. In BMVC, 2018.
[3] Yong-Lu Li, Siyuan Zhou, Xijie Huang, Liang Xu, Ze Ma, Yan-Feng Wang Hao-Shu Fang, and Cewu Lu. Transferable interactiveness knowledge for human-object interaction de- tection. In CVPR, 2019.
[4] Tianfei Zhou, Wenguan Wang, Siyuan Qi, Jianbing Shen,and Haibin Ling. Cascaded human-object interaction recog-nition. In CVPR, 2020.
[5] Julia Peyre, Ivan Laptev, Cordelia Schmid, and Josef Sivic. Detecting unseen visual relations using analogies. In ICCV, 2019.
[6] Tiancai Wang, Rao Muhammad Anwer, Muhammad Haris Khan, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. Deep contextual attention for human-object interaction de- tection. In ICCV, 2019.
[7] Saurabh Gupta and Jitendra Malik. Visual semantic role la- beling. arXiv preprint arXiv:1505.04474, 2015.
[8] YuweiChao,ZhanWang,YugengHe,JiaxuanWang,andJia Deng. HICO: A benchmark for recognizing human-object interactions in images. In ICCV, 2015.

最后编辑于：2021.10.28 10:58:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

【Paper Reading】Learning Human-Object Interaction Detection using Interaction Points

【Paper Reading】Learning Human-Object Interaction Detection using Interaction Points

标题

作者

单位

出版单位

论文下载地址

代码开源地址

数据集

摘要

相关工作

总体结构

交互生成

交互点分支

交互向量分支

交互分组

训练

和SOTA(state-of-the-art)实验对比

消融实验（ablation study）分析

局限

参考文献

推荐阅读更多精彩内容