论文 arXiv:1704.04232v2 [cs.CV] 23 Dec 2017
声明:此文稿由本人自己手动翻译,仅作自己笔记使用。请勿作为学习内容。文末附有原论文地址,可以将本文作为参考。欢迎指正,如若转载注明出处以及声明。
隐藏和寻找:使用弱监督强制网络进行细致的目标和行为定位
Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization
作者:Krishna Kumar Singh & Yong Jae Lee( 加州大学,Davis分校)
摘要
这里的'Hide-and-Seek',是一个弱监督框架,用于自动提升在图片里的目标定位和在视频里的行为定位(action localization)。现目前大多数的弱监督算法定位都是在所有区块中最具辨识的区域,这使得(算法)表现并未达到最佳。我们的中心思想是在训练集图片中随机地隐藏一些斑块(patches),当最具辨识区域块被隐藏起来的时候强制让网络去寻找其他相关部分。我们的方法只需要修改输入的图片就可以和任何一个为目标定位而设计的网络使用。在测试的时候,我们当然不需要隐藏任何斑块(patches)。(然而)我们的'Hide-and-Seek'方法相比于在'ILSVRC’数据集上更早期的弱监督算法,获得了更好的性能。我们也证实了我们的框架可以更容易的延伸应用到目标定位弱监督算法。
1.介绍
弱监督处理过去被用于:包括对象监测在内的各式各样的视觉分类和定位任务[55,13,9,41,3,50,43,8,32,61,40]、词义的区分[33,26]。与完全监督学习相比较,弱监督学习的优势在于它需要的注释细节(detailed annotationd)更少,因此(弱监督)有潜力使用在从网络上获得的只具备少量注释细节的视觉文件上。例如,弱监督物品分类器可以仅使用没有任何对象目标注释(object location annotations)的图片级别的标签(‘是狗’或者‘不是狗’)来训练。
现今的弱监督算法在训练数据上确定有效辨识区域(的时候)频繁的集中在一个种类而极少确定其他剩余种类。这明显的发生如下两个情况之一:采集有效区域的图像或者特征[55,13,9,41,3,42,43,8,40] 或者暗中的被那些由一个用于图片分类的深层网络训练得到的上层激活图来分析[38,32,61](得到)。然而,由于内部分类的变更或者信赖只在于一个分类目标,这些算法通常不会去辨识整个目标范围而只停留在最具辨识的区域。
近期用于解决大部分识别工作只集中在辨识区域的问题的(研究)工作中。Song 等其他多人[43]将目标中多种共同发生的辨识区域结合在一起用于覆盖更多区域。当确保在目标中多重选择到的辨识区覆盖更大的范围的时候,却没有办法确保那些少辨识区域的斑块也存在其中。Singh等人[40]使用从视频文件弱标签(weakly-labeled)中得到的动作提示和转移跟踪目标框(解决问题)。然而,这种方法需要额外的视频文件弱标签,而这样的标签并非都可以找到。终于,Zhou等人[61]在图片分类网络卷积层最后一层用全局平均池化替代了最大池化层。从平均池化层将所有特征聚合,这个方法鼓励网络(的学习范围)超出最具辨识的区域(这个方法足够达到最大池化效果)。然而,如果正在识别的少数高辨识区域能够学习到出精确地分类成绩,网络仍然会避开辨识低的区域,如图1所示(第一行)。
主要思想.
在本篇论述中,我们使用一个完全不同的方法来应对这个问题。区别于采用改变算法[43,61]或者依赖外部数据[40],我们将改变输入的图片来解决问题。主要的关键点在当图片在训练的时候去隐藏斑块,于是模型就需要在剩余的部分去找寻相关目标区域。我们的方法'Hide-and-Seek’也由此得名。图1(下面一行)直接的证明:如果随机的从图片中去除一些斑块,可能是图上那只狗的头部,而这个最具辨识的区域,却对模型而言是不可见的。在这个例子中,模型为了良好的完成分类任务,必须寻找其他类似于尾巴和腿这样相关的区域。借由在每批次训练(training epoch)中采用随机隐藏不同的斑块,模型寻找不同的图像的区域,而且它被迫于将找寻的注意范围放在对于相关目标的多个部分,这超越了只有一个最相关区域的范围。重点在于,我们只需要将这种随机隐藏斑块应用在训练的时候而非测试的时候。由于在测试的时候(模型)会注意到整个图片数据,和在训练的时候看到的不一样。我们会展示将隐藏像素值设置为数据平均值,可以让两个部分相匹配,并且规定了一个理论上的对正。
图1
由于'Hide-and-Seek’只是改变了输入的图片,因此可以很容易的推广应用到不同的神经网络和任务中。在本篇论述中,我们在AlexNet[28]和GoogLeNet46]上论证了它的适应性,而且将这个理念应用在弱监督图片目标定位和弱监督视频动作定位上。在短暂的动作定位任务中(需要找出视频中动作的开始和结束),当训练一个动作分类网络的时候随机隐藏了顺序播放的帧画面,这迫使网络在其他相关帧画面里学习相关动作。
贡献.
我们的工作主要有三个方面的贡献:
1)我们提出'Hide-and-Seek‘这样弱监督定位的理念并且在ILSVRE数据集[36]中创造了最新的目标定位成绩;
2)我们展示了在不同网络和层中应用的普遍性;
3)我们将理念延生到相对陌生的弱监督短暂动作定位任务中。
2.相关工作
弱监督 目标 定位.
全监督卷积网络(CNNs)过去在目标侦查[16,15,30]、分割[31]和归属定位[11,60,27]上展示了斐然的成绩,但是训练需要耗费昂贵的人工标注(比如用边界框标注目标)。为了降低昂贵的标注成本,弱监督使用更便宜的标签处理学习问题,比如使用图片级别的标签预测目标定位。[55,13,9,41,3,43,50,8,32,61]
在数据中挖掘用于辨识特征或者区域的时候,大多数弱监督定位处理频繁的出现在一个类别,而鲜于出现在其他的类别中[55,13,9,41,3,7,42,43,8]。然而这些处理方法倾向于专注在最具辨识的区域,以至于未能将处理范围覆盖到目标整个区域。在我们的方法中,我们在训练过程中(随机)隐藏了图片的斑块,这迫使我们的网络不再只注意最具辨识的区域而是目标的更多样的部分。另有一些算法将视频文件中的弱标签作为外加的动作提示,以用来提升目标定位性能[35,40]。听起来是一个好主意,但并非总是容易获取这样的视频文件,特别是对于静态的目标。相对而言,我们的算法不需要任何的外部数据或者是注释。
最近有对CNN的结构做一些修改,以使得执行图片分类任务的时候卷积层可以学到目标定位[32,61]。其他的网络已经为弱分类目标探测[20,4,24]做了设计。尽管这些算法已经显著提升了最新成绩,但从本质来说仍然是依赖于一个目标分类,这导致当低辨识区域不能提升分类性能的时候,算法会放弃捕获整个范围。我们虽然也是依赖于一个目标分类,然而我们用随机隐藏斑块的方式修改输入图片代替修改CNN的构造。我们证实这种强迫网络注意低辨识区域的方法,最终能使网络注意目标中更大的范围。
屏蔽像素或者激活物.
屏蔽图片斑块已经应用于目标定位[1]、自监督特征学习[34]、分割语义[17,10]、在目标检测中产生硬闭合(hard occlusion)训练样本[54]、以及视觉化理解CNN已经学习到的内容[59]。在个别项目中,对于目标定位[59,1],为训练一个图像分类CNN的时候遮挡的局部区域会导致分类性能的大幅度下跌。这是由于这些对图片区域的屏蔽处理只是在测试的时候而非训练的时候,这些局部区域局限于高辨识度区域。在我们的方法中,图像区域是在训练时被遮挡起来,这使得模型甚至去注意到目标上的低辨识区域。最终,我们的工作和敌对擦除(adversarial erasing)的算法密切相关,它针对弱监督语义分割迭代的训练一序列的模型。每个模型依据前面迭代模型的输出确认目标的相关部分。最终我们只训练单一的模型一次(这比较便捷)而不依赖于像以前一样的改善高显著区域的定位[56]。
Dropout[44]以及相关的延伸方法[49,47]依然值得讨论。这里有两个不同之处:(1)这些算法的任务是提升定位性能的时候用于防止过拟合的;(2)在Dropout的时候单元是被随机的去除,而在我们的算法中,被去除的是连续的图片或者视频帧画面。在实验中证实我们的方法在定位上显著优于Dropout。
动作定位.
动作定位是一个很好的研究课题[29,6,51,21,23]。最近CNN-based处理[58,37]展现了比之前手工制作方法更优越的性能。这样的全监督算法需要注释出视频中开始和结束时候的动作,这需要用大量资源去获得。弱监督方法从电影原文[29,12]或者一个有序的动作列表[5,18]中去学习。Sun等人[45]将从网络上得到的图片联合成弱标签视频用于动作定位。相对于这些方法,我们的方法针对一个短暂的视频只用到一个视频级别动作标签(video-leavel action label)。[14]在找寻一个动作的关键框架的时候我们同样也只使用视频级别的动作标签。
3.方法
在这个部分,我们首先描述我们Hide-and-Seed在图片中的目标定位算法,随后描述在视频中的动作定位。
3.1弱监督目标定位
对于弱监督目标定位,我们将一组图片中每个图片 I 只被定义上它自己类别的标签。
Iset={I1,I2,... ... ,IN}
我们的目标是学习到的目标定位既能够预测分类标签也能在新的测试图片 Itest 中标识出目标的相关(object-of-interest)边界框。为了学习目标分类,我们训练一个在进行图片分类任务的同时也学习目标定位的CNN。当数目繁多的技巧用于设计来解决这个问题的时候,现存的算法倾向于只定位目标上最具辨识度的部分,因为这些部分的数据已经足够充分去优化分类任务。
为了强迫网络学习目标的所有相关部分,我们的主要思想是在训练的时候随机地从每个图片 I 中隐藏斑块,正如如下的例子所示。
——图2-1——
——图2-2——
随机隐藏图片斑块.
隐藏斑块的目的是为了当训练图像分类任务网络的时候向它展示目标的不同部分。借由随机的隐藏斑块,我们可以保证目标上最具辨识度的部分并非总是可以被网络发现,这使得网络被迫将注意放在目标的其他相关部分。用这种方法我们可以克服现存的弱监督算法只将注意放在目标上最具辨识度的区域的情况。
具体的说,给出一个尺寸为 W×H×3 尺寸的训练图片 I ,我们首先用一个固定尺寸S×S×3将它划分为网格。由此产生总数为(W×H)/(S×S)的斑块。随后我们用 Phide 的概率隐藏每个斑块。举例来说,在图2-1,图片的尺寸是224×224×3,而它被分割成56×56×3的16个斑块。每个斑块被以 Phide=0.5 的概率隐藏。我们得到一个带有隐藏斑块的图片 I' ,并且将之作为训练用的图片输入给分类CNN。
重要的是,我们在每张图片随机的隐藏不同斑块组。并且,对于同样的图片,我们在每次训练批隐藏不同的斑块组。这样的操作性质允许让网络学习每个图片中目标的多种相关部分。例如在图2-1,由于随机的隐藏斑块,网络在每一个批次寻找到的是不同的 I‘。在第一批次中,狗的头部是被隐藏起来的而它的腿和尾巴被清楚的查看到。相对的,在第二个批次中,狗的腿和尾巴被隐藏起来而头部是可见的。正因如此,为更好的辨识一张图片是一只”狗“,网络被迫去学习狗的所有相关部分而非只有最高辨识度的部分(比如说头部)。
我们只是在训练的时候隐藏斑块,在测试的时候,没有任何隐藏斑块的整张图片将作为输入给到网络,图2-2。由于网络在训练的时候已经学习到注意多种相关部分,所以米有必要在测试的时候隐藏任何斑块。这于[1]的方法形成直观地对比,它是在测试的时候隐藏斑块而非训练时。因为网络在训练时已经被训练成将注意放在最具辨识度的区域,本质上来说为时已晚,而在测试时隐藏斑块对目标定位性能提升没有显著的效果。
设置隐藏的像素值.
有一个非常重要的细节我们需要小心。由于在训练隐藏起来的斑块和测试时没有隐藏的斑块是矛盾的,那么通过训练的第一个卷积层激活的分布在测试时完全不同。为了让一个网络能很好的推广到新的测试数据上,激活的分布应当是粗略的相等。也就是说,对于神经网络中的任意一个连接到X的单元及其输出权重W,在训练时和测试时分配的WTX应该粗略的相等。然而在我们的设置的中,由于训练时某些斑块被隐藏而测试时将不会再有隐藏,所以这种情况并非必然发生。
特别指出,在我们的设置中,假设我们有一个——核尺寸为K×K,三维权重W={w1,w2,......,wk×k}的卷积层滤波器F,它应用于图片I' 中的一个RGB斑块X={x1,x2,......,xk×k}上。v是在每个隐藏像素的RGB值的表示向量。有三种激活情况:
——图3——
1.F完全处于可以看到的部位(图3,蓝框)。那么相应的输出即为:
2.F完全处于隐藏的斑块中(图3,红框)。那么相对的输出即为:
3.F部分处于隐藏的斑块中(图3,绿框)。那么相应的输出即为:
在测试期间,F总是完全处于可见区域—输出为:
在训练时只有在第一种情况的时候才会是这种理想输出。而剩下的两个情况,当F完全或者部分处于隐藏斑块,测试期间看到的部分会有不同的激活分布。
我们用设置一个隐藏像素的RGB向量值v等于整个数据集RBG向量的平均值来解决这个问题:
用 μ 替代 v ,第二种和第三种情况的输出将会变为:
dropout[44]这个过程和缩放比例有关,此时在测试时的输出会按照训练时预期输出的缩小率来缩放比例。在dropout中,输出在整个特征地图上统一的丢弃,与空间位置无关。如果我们将隐藏斑块等同的视为'dropping'单元,那么在我们的这种情况下,由于输出的部分依赖于是否有任何隐藏的像素,我们就不能设置一个整体的缩放因素。因此,我们按照上述方法,取而代之采用按照预期的训练数据中的像素值来设置隐藏值,而没有按照输出来相应的缩放比例。从经验来看,我们发现采用这种方法设置隐藏像素对使得在训练时和测试时都有相似表现是非常重要的一步。
目标定位网络构架.
我们这个隐藏斑块的方法是独立于网络构架的,它可以和任何被设计来做目标定位的CNN网路一起使用。在我们的实验中,选择的使用Zhou等人[61]的网络,该网络执行了在卷积特征图上的全局平均池化(GAP)来给出一个分类激活图(CAM)用于描绘输入图片的类别下最具辨识的区域。这个方法已经在ILSVRC定位挑战[36]的弱监督方面展示出来最新的性能,而现有的CNN构架譬如AlexNet[28]和GoogLeNet[46]都能方便的调整来获得一个CAM。
在一张图上获得CAM的方式为,在执行最后一层卷积层后执行全局平均池化,能获得预测图片分类概率的一个分类层。和分类层中分类相关的权重代表了最后一个卷积层的那个分类特征图的重要程度。更正式的表达为,F={F1,F2,...,FM}是最后卷积层的M个特征图,而W是分类层中N×M的权重矩阵,这里的N是分类的数量。那么在图片I中的分类c在CAM表示为:
输入一张图片到CAM,我们得到一个由
[61]算法得到的边界框。简单说来,我们首先用CAM生成一个二进制的前景/后景映射,然后找到后景与前景映射相关的组件。最终,将最大的组件部分使用边界框圈起来。我们阅读参考了[61]里的更多细节部分。
3.弱监督动作定位
拿到一组没有裁剪过的视频Vset={V<suv>1,V2,...,VN}以及视视频的分类标签,我们此刻的目标是预测一个在测试视频Vtest中同样动作标签的开始和结束时间。相同的关键问题是对于任意的视频,网络会将大部分注意放在高辨识度的帧画面上以优化分类的准确度,而非所有相关帧画面。取自我们在图片中隐藏斑块的灵感,我们将采用从视频中隐藏帧画面来提高动作定位。
明确的来说,在训练的时候,我们从每个视频中均匀地采样得到帧画面Ftotal。随后把Ftotal采用长度Fsegment连续切割,由此得到Ftotal /Fsegment个片段。这就像图片的斑块,在输入到动作定位深度网络之前采用phide的概率来隐藏每个片段。我们使用前面提到的程序得到分类激活图(CAM)。在这种情况下,这里的CAM是一个表示对动作分类具有辨识度帧画面的一维映射。我们通过二值化这个映射来获得这个动作分类的开始和结束时间。
4.实验
我们在图片目标定位和视频动作定位中定量和定性地执行Hide-and-Seek。我们也同时采用了烧烛研究(ablative studies)来比较我们的算法的不同选择之间的差异。
数据集和评价指标
我们采用ILSVRC2016[36]来评价目标定位的精确度。在训练时,使用了120万张图片及其分类标签(1000个类别)。我们比较了验证数据上的基准线。我们用三个度量标准来测量性能:
1)Top-1定位精准度(Top-1 Loc):对于那些和真实分类相似概率最高的预测分类下的图片,而且预测类别的边界框准确率超过了真实Iou边界情况的50%。
2)已知真实分类下的定位准确度(GT-Known Loc):对于测试出来的真实分类边界框超过真实LoU边界框50%的那一部分图片。由于我们的方法是设计用来提升定位准确率,我们以此来评估独立于分类性能的测量定位准确度。
3)我们同样使用了分类准确度(Top-1 Clas)来评估Hide-and-Seek在图片分类性能上的影响。
针对动作定位,我们使用THUMOS2014的验证数据集[22],其构成是归属为101种动作分类的1010条未被调整的视频。我们训练了所有未调整的视频以用于分类任务,然后在20个已经有临时注释的分类上评价定位。每个视频可以包含多重的类别实例。我们计算平均准确率(mAP)用来评估,考虑如果测试的真实Iou>θ那么该测试视为正确。我们尝试θ分别为0.1, 0.2, 0.3, 0.4, 0.5。因为我们关注点是网络定位的能力,所以假设视频的真实分类标签是我们已知的。
执行的细节.
为了学习目标定位,我们使用从61引进的和AlexNet以及GoogLeNet同样改进的网络。AlexNet-GAP在pool5之前和AlexNet一样,而在这之后添加了两个卷积层。在GoogLeNet-GAP上也是类似的,在inception-4e之后的层被去除而使用一个单一卷积层取而代之。对于AlexNet-GAP和GoogLeNet-GAP两者而言,最后一层卷积层输出到一个全局平均池化层(GAP),接下来是一个分类softmax层。对于AlexNet-GAP和GoogLeNet-GAP每个添加的卷积层,各自有512和1024个尺寸为3×3、歩幅为1、填充类型为1的核。
我们分别使用55批次及40批次(epochs)来训练AlexNet-GAP和GoogLeNet-GAP,其参数batch size=128,初始学习率为0.0001。为帮助GoogLeNet-GAP收敛,我们在每个卷积层之后添加来标准batch[19](batch normalization)。为简单起见,我们的构架不像原始AlexNet构架[28]那样,我们没有将卷积滤波器聚合起来(这能得到和AlexNet-GAP的分组版本在统计学上相同的Top-1 Loc精确度,然而在分类上有更好的性能)。网络在隐藏图片斑块(训练时)和没有隐藏图片斑块(测试时)完全保持一致。为了得到二进制的前景/背景映射,分别为AlexNet-GAP和GoogLeNet-GAP选择20%和30%的CAM最大值作为阙值(threshold);阙值由观察几个训练数据集中的几个定性结果选择出来。在测试中,我们从10个结果中取平均值来获得分类概率以及定位图(四个角和中心,以及水平翻转后的同样位置)。我们发现在微调预训练网络时定位和分类性能很接近。
对于动作定位,我们使用一个在Sports 100万[25]上预训练的模型来计算C3D[48]fc7 特征。我们计算了10feats/sec(每个特征超过16个帧画面计算)以及从视频中2000个一致的特征样本。把视频分割成20个由特征Fsegment=100的等长片段。在训练时,每个片段以phide=0.5的概率隐藏。当分类时,我们将C3D特征作输入到一个CNN,构成为两个卷积层后接一个全局最大池化和一个softmax分类层。每个卷积层有500个尺寸为1×1、步幅为1的核。对于任何隐藏的帧画面,我们分配的是C3D特征的平均数据集。为了阙值化,选择CAM最大值的50%。所有在阙值化后的连续片段都被在预测时被考虑。
4.1.目标定位的定量结果
我们首先对ILSVRC验证数据集上的目标定位准确率进行分析。表格1中展示了使用Top-1 Loc 和 GT-known Loc的评测结果。AlexNet-GAP[61]是我们在测试的时没有任何隐藏斑块而看到整个图片得到的基准线。Alex-HaS-N是我们采用方法,具体为使用0.5的概率在训练时隐藏尺寸时N×N的斑块。
——表1——
斑块的尺寸N我们应该如何选择?
我们探寻了四个不同斑块尺寸N={16,32,44,66},它们每个执行结果都优于AlexNet-GAP的Top-1 Loc 和 GT-known Loc两个分数。用每个斑块尺寸下执行的GoogLeNet-HaS-N模型结果同样胜过GoogLeNet-GAP。这些结果明确的表现出在训练时隐藏斑块能取得更好的定位。通过我们的方法会损失一些分类准确度(Top-1 Clas),这是因为它没有看到完整的图片而导致可能没有学习到联系某些部分,但在定位效果上的巨大的推动(可以从与GT-known Loc性能比较中看到)弥补了在分类性能上的任何不足。
我们同样训练了混合了斑块尺寸的网络(AlexNet-HaS-Mixed)。在训练期间,每个图片的每个批次,选择隐藏的随机尺寸从16,32,44和56也包括无隐藏(全图可见)。由于隐藏起来的斑块是不同尺寸,所以网络可以从一个目标的不同部分学习到足够信息(例如 小/大 斑块更适合隐藏 更小/更大 的部分)。确实,我们使用AlexNet-HaS-Mixe获得了最好的结果。
与state-of-the-art比较
接下来,选择了我们最佳的AlexNet和GoogLeNet模型,用于在ILSVRC验证数据集上与state-of-the-art算法比较,见 表2。我们的算法执行结果分别在GT-know Loc以及Top-1 Loc的分数比AlexNet-GAP[61]高3.78%和1.40%百分点。更重要的是,获得此等分数只是简单的改变输入图片而没有对网络结构做改动。
——表2——
整体模型.
由于不同尺寸的斑块提供充足的信息(见之前的论述部分),我们也创建了一个有不同尺寸斑块的整体模型(我们的整体)。为在一张图片中得到最终的定位,我们是使用AlexNet-HaS-16,32,44,56将CAM获得的结果平均,当用于分类时,四个和使用AlexNet-GAP获得分类概率一样的模型,我们取其所有分类概率求得平均值。这个整体模型在GT-know Loc以及Top-1 Loc的分数上比AlexNet-GAP分别取得了5.24%和4.15%的巨大提高。一个更可观的比较,我们也联合了五个相互独立的AlexNet-GAP取得了整体基准线。我们的整体模型在GT-know Loc以及Top-1 Loc的分数上分别胜过高标准基准线5.24%和4.15%。
4.2目标定位的定性结果
we visualize the class activation map (CAM)and bounding box obtained by our AlexNet-HaS approach versus those obtained with AlexNet-GAP
在 图4 中,我们形象化的展示了分类激活图(CAM)并对比画出了由我们AlexNet-Has方法获得的以及由AlexNet-GAP获得的边界框。对于每张图片文件有一对展示图,第一张展示图了预测边界框(绿色)和真实边界框(红色)。第二张展示图为CAM,i.e,图为网络针对这个类别的关注点。相对于AlexNet-GAP我们的算法定位更多目标的相关部分而没有只限制在最具辨识度的区域。举例来说,在第一、第二,以及第五行中AlexNet-GAP只将注意放在动物的头部,然而我们的算法在此时定位了身体部分。类似的情况,在第三和最后一行的展示图中,AlexNet-GAP漏掉了蛇和松鼠的尾巴而我们没有。
——图4——
4.3. Hide-and-Seek的特征分解
与dropout对比
Dropout[44]已经被广泛地在深度网络中用于解决过拟合问题。尽管它没有被设计用来提升定位,但是扔掉的单位和我们隐藏的斑块有关联。我们因此进行了一个实验将图片层使用50%的dropout。我们注意到由于像素级水平的巨大的dropout,学习后的滤波器生成一个对应于图片dropout部分的bias,而且分类以及定位性能明显不佳(AlexNet-dropout-trainonly)。如果我们也在测试的时候使用dropout(AlexNet-dropout-traintest)是可以提升性能但是相对我们的方法仍然落后很多(表3)。由于dropout随机的扔掉像素(以及RGB通道),目标相关的大部分信息依然有很大的几率被网络看到,这使得它可能只集中在最具辨识的区域。
——表3——
我们需要全局平均池化吗?
[61]展示出对于目标定位来说GAP要优于全局最大池化(GMP),这是由于全局平均池化鼓励网络注意整个辨识度区域。而最大池化只需要给出最具辨识度的区域。但难道说全局池化对定位完全没有帮助了吗?
使用Hide-and-Seek的时候,即使和最大池化一起,网络也被迫注意不同的辨识度区域。在表4中可以看到最大池化(AlexNet-GMP)比平均池化(AlexNet-GAP)相对逊色。然而使用Hide-and-Seek,最大池化(AlexNet-GMP)定位准确度大幅增长,甚至微微地胜过平均池化(AlexNet-GAP)。
——表4——
在卷积层的Hide-and-Seek.
我们接下来将我们的想法应用在卷积层。我们将卷积层特征图划分成网然后用0.5的概率隐藏每个斑块(以及斑块相应的通道)。我们在conv1特征图(图尺寸55×55×96)中隐藏尺寸为5(AlexNet-HaS-conv1-5)以及尺寸为11(AlexNet-HaS-conv1-11)的斑块。从表5看出这种方法与AlexNet-GAP基准线相比取得了巨大的进步。这表明我们的这种随机隐藏斑块的办法可以推广到卷积的层中。
——表5——
隐藏的概率.
在之前的试验中,我们用50%的概率隐藏斑块。在表6中,我们在使用不同的隐藏概率下评估GT-know Loc以及Top-1 Loc。如果增大概率那么GT-know Loc几乎和Top-1 Loc同样的大幅度减少。发生这种情况是因为当隐藏概率高的时候网络看到的少可怜的像素,结果导致分类准确度以及Top-1 Loc下降。如果减小概率那么GT-know Loc减小但Top-1 Loc增大。在这种情况下,网络看到更多的像素因此其分类性能提升,但是由于隐藏部分少,网络将注意只放在辨识度区域而降低了它的定位能力。
——表6——
kj{#index}
4.4.动作定位成绩
最后,我们评估动作定位准确度。将我们这种在学习动作分类时随机隐藏帧画面片段的方法(Video-HaS),与可以见到全部视频的方法(Video-full)得到的基准线做比较。表7展示了在THUMOS验证数据集上得到的结果。Video-HaS依然在定位任务上胜过Video-full,表明隐藏帧画面迫使我们的网络注意到更多相关的帧,这最终取得了更好的动作定位性能。我们在supp里定性的展示了成绩。
——表7——
5.结论
我们提出的'Hide-and-Seek',一个全新的弱监督框架来提升图片里的目标定位和视频里的的短暂动作定位。借由在图片/视频中随机地隐藏斑块/帧画面,我们迫使网络学习去注意一个目标/动作的多种相关部分。在我们大量的实验中展示提升后定位准确度 超过了state-of-the-art的算法。
鸣谢.
这里的部分工作得到了Interl Corp、Amazon Web Services Cloud Credits for Reserch、GPUs donated by NVIDIA支持。
参考文献
[1] L. Bazzani, B. A., D. Anguelov, and L. Torresani. Self-taught object localization with deep networks. In WACV, 2016. 2, 4
[2] T. Berg, A. Berg, and J. Shih. Automatic attribute discovery and characterization from noisy web data. In ECCV, 2010. 1
[3] H. Bilen, M. Pedersoli, and T. uytelaars. Weakly supervised object detection with posterior regularization. In BMVC, 2014. 1, 2
[4] H. Bilen and A. Vedaldi. Weakly supervised deep detection networks. In CVPR, 2016. 2
[5] P. Bojanowski, R. Lajugie, F. Bach, I. Laptev, J. Ponce, C. Schmid, and J. Sivic. Weakly supervised action labeling in videos under ordering constraints. In ECCV, 2014. 3
[6] C. Y. Chen and K. Grauman. Efficient activity detection with max-subgraph search. In CVPR, 2012. 3
[7] R. Cinbis, J. Verbeek, and C. Schmid. Multi-fold MIL Training for Weakly Supervised Object Localization. In CVPR, 2014. 2
[8] R. Cinbis, J. Verbeek, and C. Schmid. Weakly supervised object localization with multi-fold multiple instance learning. In arXiv:1503.00949, 2015. 1, 2, 3
[9] D. J. Crandall and D. P. Huttenlocher. Weakly supervised learning of part-based spatial models for visual object recognition. In ECCV, 2006. 1, 2
[10] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015. 2
[11] K. Duan, D. Parikh, D. Crandall, and K. Grauman. Discovering localized attributes for fine-grained recognition. In CVPR, 2012. 2
[12] O. Duchenne, I. Laptev, J. Sivic, F. Bach, and J. Ponce. Automatic annotation of human actions in video. In ICCV, 2009. 3
[13] R. Fergus, P. Perona, and A. Zisserman. Object Class Recognition by Unsupervised Scale-Invariant Learning. In CVPR, 2003. 1, 2
[14] C. Gan, N. Wang, Y. Yang, D.-Y. Yeung, and A. G. Hauptmann. Devnet: A deep event network for multimedia event detection and evidence recounting. In CVPR, 2015. 3
[15] R. Girshick. Fast r-cnn. In ICCV, 2015. 2
[16] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. In CVPR, 2014. 2
[17] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simul-taneous detection and segmentation. In ECCV, 2014. 2
[18] D.-A. Huang, L. Fei-Fei, and J. C. Niebles. Connectionist temporal modeling for weakly supervised action labeling. In ECCV, 2016. 3
[19] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 5
[20] M. Jaderberg, K. Simonyan, A. Zisserman, and k. kavukcuoglu. Spatial transformer networks. In NIPS, 2015. 2
[21] H. Jhuang, J. Gall, S. Zuffi, C. Schmid, and M. J. Black. Towards understanding action recognition. In ICCV, 2013. 3
[22] Y.-G. Jiang, J. Liu, A. Roshan Zamir, G. Toderici, I. Laptev, M. Shah, and R. Sukthankar. THUMOS challenge: Action recognition with a large number of classes. http://crcv.ucf.edu/THUMOS14/, 2014. 5
[23] V. Kantorov and I. Laptev. Efficient feature extraction, encoding and classification for action recognition. In CVPR, 2014. 3
[24] V. Kantorov, M. Oquab, M. Cho, and I. Laptev. Contextlocnet: Context-aware deep network models for weakly supervised localization. In ECCV, 2016. 2
[25] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014. 6
[26] A. Khoreva, R. Benenson, M. Omran, M. Hein, and B. Schiele. Weakly supervised object boundaries. In CVPR, 2016. 1
[27] M. Kiapour, K. Yamaguchi, A. C. Berg, and T. L. Berg. Hipster wars: Discovering elements of fashion styles. In ECCV, 2014. 2
[28] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet Classification with Deep Convolutional Neural Networks. In NIPS, 2012. 2, 4, 5
[29] I. Laptev, M. Marszalek, C. Schmid, and B. Rozenfeld. Learning realistic human actions from movies. In CVPR, 2008. 3
[30] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg. Ssd: Single shot multibox detector. In ECCV, 2016. 2
[31] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 2
[32] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Is object localization for free? weakly-supervised learning with convolutional neural networks. In CVPR, 2015. 1, 2, 3
[33] D. Pathak, P. Krahenb ¨ uhl, and T. Darrell. Constrained con- ¨ volutional neural networks for weakly supervised segmentation. In ICCV, 2015. 1
[34] D. Pathak, P. Krahenb ¨ uhl, J. Donahue, T. Darrell, and ¨ A. Efros. Context encoders: Feature learning by inpainting. In CVPR, 2016. 2
[35] A. Prest, C. Leistner, J. Civera, C. Schmid, and V. Ferrari. Learning Object Class Detectors from Weakly Annotated Video. In CVPR, 2012. 2
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015. 2, 4, 5
[37] Z. Shou, D. Wang, and S.-F. Chang. Temporal action localization in untrimmed videos via multi-stage cnns. In CVPR, 2016. 3
[38] K. Simonyan, A. Vedaldi, and A. Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. In ICLR Workshop, 2014. 1, 6
[39] K. K. Singh and Y. J. Lee. End-to-end localization and ranking for relative attributes. In ECCV, 2016. 1
[40] K. K. Singh, F. Xiao, and Y. J. Lee. Track and transfer: Watching videos to simulate strong human supervision for weakly-supervised object detection. In CVPR, 2016. 1, 2
[41] P. Siva, C. Russell, and T. Xiang. In Defence of Negative Mining for Annotating Weakly Labelled Data. In ECCV, 2012. 1, 2
[42] H. O. Song, R. Girshick, S. Jegelka, J. Mairal, Z. Harchaoui, and T. Darrell. On Learning to Localize Objects with Minimal Supervision. In ICML, 2014. 1, 2, 3
[43] H. O. Song, Y. J. Lee, S. Jegelka, and T. Darrell. Weaklysupervised discovery of visual pattern configurations. In NIPS, 2014. 1, 2
[44] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. JMLR, 2014. 2, 4, 7, 8
[45] C. Sun, S. Shetty, R. Sukthankar, and R. Nevatia. Temporal localization of fine-grained actions in videos by domain transfer from web images. In ACM Multimedia, 2015. 3
[46] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015. 2, 4
[47] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler. Efficient object localization using convolutional networks. In CVPR, 2015. 2
[48] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In ICCV, 2015. 6
[49] L. Wan, M. Zeiler, S. Zhang, Y. LeCun, and R. Fergus. Regularization of neural network using dropconnect. In ICML, 2013. 2
[50] C. Wang, W. Ren, K. Huang, and T. Tan. Weakly supervised object localization with latent category learning. In ECCV, 2014. 1, 2
[51] H. Wang and C. Schmid. Action recognition with improved trajectories. In ICCV, 2013. 3
[52] J. Wang, Y. Cheng, and R. Schmidt Feris. Walk and learn: Facial attribute representation learning from egocentric video and contextual data. In CVPR, 2016. 1
[53] S. Wang, J. Joo, Y. Wang, and S. C. Zhu. Weakly supervised learning for attribute localization in outdoor scenes. In CVPR, 2013. 1
[54] X. Wang, A. Shrivastava, and A. Gupta. A-fast-rcnn: Hard positive generation via adversary for object detection. In CVPR, 2017. 2
[55] M. Weber, M. Welling, and P. Perona. Unsupervised Learning of Models for Recognition. In ECCV, 2000. 1, 2
[56] Y. Wei, J. Feng, X. Liang, M.-M. Cheng, Y. Zhao, and S. Yan. Object region mining with adversarial erasing: A simple classification to semantic segmentation approach. In CVPR, 2017. 2
[57] F. Xiao and Y. J. Lee. Discovering the spatial extent of relative attributes. In ICCV, 2015. 1
[58] S. Yeung, O. Russakovsky, G. Mori, and L. Fei-Fei. Endto-end learning of action detection from frame glimpses in videos. In CVPR, 2016. 3
[59] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV, 2014. 2
[60] N. Zhang, M. Paluri, M. Ranzato, T. Darrell, and L. Bourdev.
PANDA: Pose Aligned Networks for Deep Attribute Modeling. In CVPR, 2014. 2
[61] B. Zhou, A. Khosla, L. A., A. Oliva, and A. Torralba. Learning deep features for discriminative localization. In CVPR, 2016. 1, 2, 3, 4, 5, 6, 7, 8
原论文地址 https://arxiv.org/pdf/1704.04232.pdf
声明:此文稿由本人自己手动翻译,仅作自己笔记使用。请勿作为学习内容。文末附有原论文地址,可以将本文作为参考。欢迎指正,如若转载注明出处以及声明。
df