标题:NetTrack: Tracking Highly Dynamic Objects with a Net
作者:Guangze Zheng, Shijie Lin, Haobo Zuo, Changhong Fu, Jia Pan
机构:香港大学、同济大学
原文链接:https://arxiv.org/abs/2403.11186
代码链接:https://github.com/George-Zhuang/NetTrack
数据集链接:https://pan.baidu.com/s/1Ztu8-JJLFHmMkJyWrJQ8lQ?pwd=bft5
官方主页:https://george-zhuang.github.io/nettrack/
摘要
开放世界目标复杂的动态特性对多目标跟踪提出了不可忽视的挑战,通常表现为严重的变形、快速运动和遮挡。大多数方法只依赖粗粒度的对象提示,例如方框和对象的整体外观,由于动态对象的内部关系扭曲,容易退化。为了解决这个问题,这项工作提出了NetTrack,一个高效、通用和负担得起的跟踪框架,引入了对动态健壮的细粒度学习。具体地说,NetTrack利用点级视觉提示,构建了与细粒度网络的动态感知关联。相应地,结合了细粒采样器和匹配方法。此外,NetTrack还学习对象与文本的对应关系,以实现细粒度本地化。为了评估MOT在极其动态的开放世界场景中的性能,构建了一个鸟群跟踪(BFT)数据集,该数据集在物种多样性和开放世界场景下表现出高度的动态性。对BFT的综合评估验证了细粒度学习在对象动态性上的有效性,并在TAO、TAO-OW、AnimalTrack和GMOT-40等开放世界基准测试上进行了深入的迁移实验,验证了NetTrack即使在没有微调的情况下也具有很强的泛化能力。
1 引言
多目标跟踪(MOT)的目的是在视频和现实世界中保持对感兴趣对象的连续视觉感知。传统的MOT方法往往假设对象是粗粒度的实体,因为在经典的MOT任务中,特定对象类别[10]和场景的动态性并不显著,并且对象内部的关系相对稳定。然而,在开放世界MOT任务中跟踪任意对象,特别是高动态对象的需求严重挑战了这一假设。
开放世界物体的高度动态性,表现为严重的变形、快速的运动和频繁的遮挡,在两个主要方面对现有的方法提出了挑战:
1)关联对于大多数方法来说,仅仅依赖于粗粒度的视觉表示,高的动态性使得时间连续性在关联方面变得脆弱,因为对象中的内部关系被扭曲。这些方法通常将整个对象表示为粗粒度边界框或相应的特征,并且动态性显著降低了这些表示跨越不同时间步长的相似性,如图1-b所示。
2)本地化高度动态化也对建立准确的文本-对象对应关系进行本地化提出了挑战。最新的(SOTA)方法通常在预训练中学习整个图像和文本之间的粗粒度对应。对于严重变形或遮挡的对象,这些方法通常难以定位。
在这项工作中,我们提出了NetTrack,引入细粒度学习来解决上述两个方面的问题。关于关联,NetTrack利用对象外观上的物理点,这些点不太容易受到对象动态化的影响,并形成细粒度的视觉提示。对于定位,使用扎根的预训练来学习对象和文本之间的细粒度对应。因此,我们的主要贡献概述如下:
i. 用于动态感知关联的细粒度网络而不是将对象视为粗粒度实体,该工作使用细粒度网络跟踪对象,该网络利用对象外观表面上的兴趣点(POI)。形变等动态性通过改变全局相对位置和外观特征分布扭曲了POI之间的内在关系,而点本身的细粒度表示,如局部外观颜色和与邻接点的关系,几乎不受影响,并表现出健壮性,如图1-b所示。根据这一观点,我们设计了一个细粒度采样器来发现潜在的POI,并利用这些点的细粒度视觉线索,以及新兴的物理点跟踪方法[12,22,28],进行稳健的跟踪。随后,提出了一种简单有效的细粒度相似度计算方法来确定被跟踪的POI与候选对象之间的包容关系。提出的细粒度相似度评分与已有的粗粒度相似度评分相结合,实现了更稳健的动态对象关联。
ii. 用于动态感知关联的细粒度网络而不是将对象视为粗粒度实体,该工作使用细粒度网络跟踪对象,该网络利用对象外观表面上的兴趣点(POI)。形变等动态性通过改变全局相对位置和外观特征分布扭曲了POI之间的内在关系,而点本身的细粒度表示,如局部外观颜色和与邻接点的关系,几乎不受影响,并表现出健壮性,如图1-b所示。根据这一观点,我们设计了一个细粒度采样器来发现潜在的POI,并利用这些点的细粒度视觉线索,以及新兴的物理点跟踪方法[12,22,28],进行稳健的跟踪。随后,提出了一种简单有效的细粒度相似度计算方法来确定被跟踪的POI与候选对象之间的包容关系。提出的细粒度相似度评分与已有的粗粒度相似度评分相结合,实现了更稳健的动态对象关联。对象-文本对应细粒度定位为了发现和定位跟踪中高度动态的对象,本工作采用预训练方法通过短语基础[32,41,68]进行跟踪,以实现细粒度对象-文本对应。与使用粗粒度图文对应的基于剪辑的跟踪方法[23,34]相比,NetTrack可以更有效地区分高度动态的对象,如图2所示。此外,通过在框架内嵌入描述符(图2中的GPT-3.5[6]),所提出的框架学习上下文信息,例如提供的专业应用和知识上下文,以减轻背景干扰,并实现用于高效动态目标跟踪的实际应用。
iii. 不同场景下的高动态基准测试和传输实验本工作引入了一个高动态的开放世界MOT数据集,名为鸟群跟踪(BFT),以评估跟踪方法在跟踪高动态目标方面的性能。BFT特别值得注意的是22种鸟类的复杂和不可预测的动态,主要原因有三:
1)三维活动空间造成的快速运动。
2)频繁拍打翅膀造成的变形[37]。
3)由于鸟群中鸟类的集体行为而引起的闭塞[38,39]。
此外,BFT包括14个不同的开放场景和106个序列中的22个物种,展示了丰富的多样性,如图1-c所示。经测试,本文提出的NetTrack框架在跟踪BFT中的高动态目标方面达到了SOTA性能。此外,全面的零镜头传输实验表明,NetTrack在几个具有挑战性的开放世界 MOT基准上超过了跟踪基线,例如TAO、TAO-OW、AnimalTrack和GMOT-40。引入的细粒度学习有助于增强NetTrack的泛化能力,即使没有细调。作为一个高效、通用且经济实惠的跟踪框架,NetTrack在开放世界应用场景中也显示出潜力,进一步突显了其对下游任务的适用性。
2. 相关工作
开放世界多目标跟踪方法按检测跟踪是MOT中最流行的框架,它包括定位潜在目标并随着时间的推移将它们关联起来。传统的MOT方法通常关注有限的场景和对象类别,如公共场所的行人或自动驾驶场景中的车辆。相比之下,开放世界的跟踪任务要求跟踪者能够在复杂和动态的场景中跟踪任何对象。基于CLIP的开放场景目标检测的兴起促进了这一任务,促使先进的开放世界跟踪基线利用CLIP风格的预训练,通过利用文本和图像之间的对应关系来实现泛化。然而,这些主流的跟踪方法通常将目标视为粗粒度的包围盒,但开放世界对象的高动态性往往会扰乱这种粗略表示的时间相似性。此外,与剪贴式预训练中使用的浅融合视觉语言特征相比,定位动态对象通常需要在对象和文本之间建立细粒度的对应关系,以抵消对象的外观扭曲或损害。
最近出现的物理点跟踪方法启发了这项工作,引入了对象的细粒度视觉线索。这些方法的目标是跟踪视频片段上的任意物理点,依赖于点级外观表示,而不是粗略地传播整个对象,因此有望保持对动态对象的良好泛化。此外,基于短语基础的预训练方法也被应用于开放集合对象检测任务,由于对象级别、语言感知和语义丰富的视觉表示,预计其对于动态对象跟踪的潜在益处。
开放世界多目标跟踪基准经典MOT基准主要关注有限的对象类别和场景,其中对象通常保持稳定的外观或姿势并经历相对简单的运动,例如跟踪行人或车辆。随着对开放世界跟踪应用的需求不断增加,关注更广泛场景和对象类的MOT基准应运而生。TAO在海量数据中包含大量看不见的对象,GMOT-40侧重于跟踪看不见的对象类别,AnimalTrack侧重于跟踪野生动物。后来,TAO-OW在开放世界的环境中定义了已知和未知的对象类别,Li等人也是如此。在开放词汇设置中,根据TAO基准将对象类别划分为基本对象类别和新奇对象类别。在各种开放世界的MOT任务中,虽然学习看不见的课程是至关重要的,但这些看不见的物体潜在的严重变形和快速运动所产生的能动性也同样关键,需要进行全面的评估。
3. 方法
提出的NetTrack框架引入了用于动态感知对象关联的细粒度网络和用于动态感知本地化的细粒度对象-文本对应。
3.1描述了使用采样和执行关联将对象组织成细粒度网络。
3.2主要讨论细粒度的对象-文本对应如何对动态对象的本地化产生积极影响。
3.1.细粒度网络
所提出的动态感知关联利用细粒度网络来构建对象动态的健壮视觉线索。它主要由细粒采样器和匹配方法组成。整个过程如图3所示。细粒度采样器本工作引入点级视觉线索来形成具有兴趣点(POI)的细粒度网络。理想情况下,采样POI应该准确地捕获每个感兴趣对象表面上的每个有价值的点,避免背景干扰或多余的计算负担。一个简单的想法是对跟踪对象框中的POI进行采样,并逐帧更新点。然而,这样的方法可能会增加一定的计算负担,忽略假阴性样本,以及视觉上下文不足。因此,提出了一种用于交叉帧POI采样的细粒度采样器。
将POI的预期分布表示为f(X),其中x表示图像I中的点。对象运动基于卡尔曼滤波[27]来估计,如[4,5,7,71]。这种估计相当于S画框中某一时期小说对象的粗略分布。然后,该分布可以被变换为点级别的形式,如p(x|T粗略o,{i}S i=1),其中T粗略o是粗略估计的对象的粗粒度轨迹,p(·)是发现潜在POI的二进制分布。这一分布是对POI进行抽样的重要权重。给定点数K,然后可以使用重要性抽样[62]将预期POI表示为:
因此,利用点跟踪模型在帧#t-1确定细粒度POI,并在帧#t估计细粒度POI。利用细粒度网络进行跟踪的细粒度匹配需要基于时间相似性将记忆的POI与当前检测结果进行匹配。在给定点跟踪器模型Trp的情况下,可以在上述时间段内获得估计的点轨迹Tp。在获得当前帧#t的检测结果Dt之后,细粒度匹配方法计算落在候选检测框内的网络中的估计点的数量作为细粒度相似度。设N为帧#t−1中跟踪对象的个数,N个网{Pi}Ni=1和M个检测盒{bj}Mj=1的匹配细粒度记分矩阵S的元素Si,j可表示为:
其中w是惩罚具有过大面积的候选检测框的权重,因为较大的面积通常导致预测点容易落入框内,从而导致潜在的误判。|pi∩bj|指净pi在bj内定位的点数,如图3所示为有效点数,|pi|为净pi内的点数。A(·)指的是框的面积,而ˆb是使用[27]在帧#t中预测的跟踪对象的框。然后,结合粗粒度相似度得分,得到整体匹配得分。如图3所示,对象的动态性经常导致联合交集(IOU)中粗粒度相似度的降低,而细粒度关联保持健壮。然后使用匈牙利算法[29]执行匹配过程。算法1中描述了该方法的细节。
3.2.细粒度的对象-文本通信
为了学习用于定位的细粒度对象-文本对应,该工作引入了一种基于短语基础的预训练策略来跟踪动态对象,并通过深度融合文本和对象特征来缓解对象动力学的不利影响。与使用基于CLIP[54]的预训练的SOTA跟踪方法[23,34]不同,我们遵循[32,41,68]来识别句子中的短语与图像中的对象之间的对应关系,从而形成细粒度的对象-文本对应关系。在给定输入图像I和语言提示P的情况下,可以分别利用视觉编码器EncV和语言编码器EncL来获得对应的对象特征FO和语言特征FL。然后,通过深度融合得到F‘O和F’L两个特征,进而得到目标-文本对应分数Sround。此过程的公式为:
从视觉的角度来看,细粒度的对象-文本对应增强了对视觉特征的语言意识,从而能够更好地识别变形的对象。从语言的观点来看,这种对应在预训练期间学习单词或子句级别的上下文表示[41],避免由不必要的单词交互引起的偏见。所提议的框架还允许利用嵌入的描述符(例如,大型语言模型[6,52])更详细地理解对象。因此,这种细粒度的通信更适合于在专业场景中捕获更具体的上下文信息,如图2。
4. BFT数据集
数据采集
。这通常导致鸟群在有限的空间内密集分布,使其在视觉上容易受到遮挡。除了前述的动态挑战外,鸟类往往成群出现相似的外观,这也增加了视觉辨别的难度。数据收集鸟群是开放世界中最具活力的跟踪对象之一,因此被认为是这项工作的理想主题。鸟类的能动性主要归因于三个现象:
1)鸟群由于具有三维的活动空间和额外的自由度,比地面物体表现出更高的机动性。此外,鸟类的惯性较小,可以更灵活地加速、减速和改变方向。复杂的空气动力学效应也使得飞行鸟群的运动更加难以预测。
2)鸟类在飞行过程中通常会经历频繁而强烈的变形,主要是由于拍翼[37]。
3)集体行为[38,39]在许多鸟群中广泛存在。这通常导致鸟群在有限的空间内密集分布,使其在视觉上容易受到遮挡。除了前述的动态挑战外,鸟类往往成群出现相似的外观,这也增加了视觉辨别的难度。
为了展示开放世界场景的多样性和物种的多样性,BFT数据集包括22种鸟类和14个常见的自然和文化场景,覆盖六大洲,如图4-a和图1-c所示。图7中有详细对应的鸟类目、科、属和种。主要数据来源是BBC自然纪录片系列地球飞行[25]。从大约6个小时的视频中提取了106个精心挑选的片段,进一步将其分为35个视频的训练集、25个视频的验证集和36个视频的测试集。所有数据都经过了专家的细致批注和跟踪领域专家的多轮审查,以及生物领域专家的核实。视频和注释的帧速率通常被设置为每秒25帧(FPS)。
高动态
:BFT的高动态包括更严重的变形、更快的运动和更频繁的闭塞。定量地,图4-b,c从两个方面比较了BFT与其他开放世界MOT数据集[1,8,69]的动态性。具体地说,纵横比变化(ARC)[15,51]是常用的跟踪属性,其测量对象变形或遮挡的频率和严重程度。对象运动是测量对象在两个连续时间步长之间的位移的另一个属性。详细统计数据显示在SEC中。8.由于BFT的ARC分布更分散,运动分布的值更大,与其他数据集相比,BFT表现出更强的动态性。5.实验本实验部分旨在验证本工作的以下核心结论:1)开放世界物体的高度动态化给MOT带来了巨大的挑战。2)NetTrack在处理动态对象方面表现突出,在各种OpenWorld跟踪数据集上表现出很强的泛化能力,而不需要精调。3)与粗粒度方法相比,提出的细粒度学习方法对动态目标的跟踪具有更强的泛化能力。5.1.利用设置数据集BFT来评估跟踪器在高度动态的开放世界场景中的性能。在零射击迁移评估中,使用了大规模TAO-OW[42]和TAO[8]的验证集来进行广泛的泛化能力评估。具体地说,TAO的评估遵循[34]中的描述,其中对基本类别和新类别采用开放词汇设置,并评估跟踪器的分类能力。新奇类是在LVIS[20]数据集中定义为REARE的类。不同的是,TAO-OW的对象类根据它们是否属于COCO[36]中的80个类别来划分为已知和未知。在消融实验中,除了TAO和TAO-OW外,还包括AnimalTrack[69]和GMOT-40[1]作为参考,并在TAO-OW之后的开放世界环境中进行评估。关于AnimalTrack,10个班级中有8个不属于可可类别。同样,在GMOT-40的18个等级中,有12个等级是高动态的比例。BFT的高动态包括更严重的变形、更快的运动和更频繁的闭塞。定量地,图4-b,c从两个方面比较了BFT与其他开放世界MOT数据集[1,8,69]的动态性。具体地说,纵横比变化(ARC)[15,51]是常用的跟踪属性,其测量对象变形或遮挡的频率和严重程度。对象运动是测量对象在两个连续时间步长之间的位移的另一个属性。详细统计数据显示在SEC中。8.由于BFT的ARC分布更分散,运动分布的值更大,与其他数据集相比,BFT表现出更强的动态性。
5. 实验
本实验部分旨在验证本工作的以下核心结论:
1)开放世界物体的高度动态化给MOT带来了巨大的挑战。
2)NetTrack在处理动态对象方面表现突出,在各种开放跟踪数据集上表现出很强的泛化能力,而不需要精调。
3)与粗粒度方法相比,提出的细粒度学习方法对动态目标的跟踪具有更强的泛化能力。
5.1 设置
数据集
BFT来评估跟踪器在高度动态的开放世界场景中的性能。在零样本迁移评估中,使用了大规模TAO-OW[42]和TAO[8]的验证集来进行广泛的泛化能力评估。具体而言,TAO的评估遵循[34]中的描述,其中对基础类别和新类别采用开放词汇设置,并评估跟踪器的分类能力。新类别是在LVIS数据集中定义为罕见的类别[20]。目前,TAO—OW的对象类根据它们是否属于COCO中的80个类别分为已知和未知[36]。在消融实验中,除TAO和TAO—OW外,还包括AnimalTrack [69]和GMOT—40 [1]作为参考,并在TAO—OW后在开放世界环境中进行评价。关于AnimalTrack,10个课程中有8个不在COCO类别之内。同样,GMOT—40中的18个类别中有12个不属于COCO类别。
评估
开放世界跟踪精度(OWTA)[42]是为TAO-OW提出的开放世界MOT度量,是我们实验中的主要度量。OWTA评估两个检测召回(D。Re.)和关联准确性(A.Acc.),分别检测精度(D.Acc.),检测精度(D.Pr.),联想回忆(A.Re.),和关联精度(A.(Pr.)是参考指标。TETA [33]旨在评估多类别对象,并用于在开放词汇设置下评估TAO数据集。在TETA中计算定位评分(LocA)和关联评分(AssocA)。HOTA [44],MOTA [3]和IDF 1 [56]是用于与BFT上的经典MOT方法进行比较的经典指标,并可作为参考。所有评价过程均采用TrackEval [26]。
实现细节
在NetTrack中,粗粒度关联从BYTE [71]中调整,默认点跟踪器从在TAP-VidKubric [11]上预训练的CoTracker [28]中调整。默认情况下,跟踪步幅为8,丢失的轨迹保留30帧,初始化点采样的网格为(3,3)。默认检测器是GroundingDINO [41]与Swin-B [43]骨干,它在COCO [36],O365 [58]等上进行了预训练。为了以开放世界MOT应用程序负担得起的方式验证NetTrack的泛化能力,所有评估的基准测试都不需要额外的训练。BFT上公开的SoTA跟踪器的微调和评估遵循其默认设置。
5.2.高动态评估
Tab 1 中提供了NetTrack和其他SoTA跟踪器在高度动态BFT上的综合评估。评估分为两个主要部分:a)使用闭集跟踪器对BFT数据集进行微调。b)开放世界MOT条件,其涉及在零激发设置下的跟踪。为了确保在开放世界场景的高度动态挑战中对跟踪器性能进行公平评估,开放世界条件下的所有文本提示都只包括“鸟”,这与COCO数据集中用于训练闭集跟踪器的类别一致。实验结果主要表明:1)即使在零拍开放世界跟踪设置中,NetTrack也能获得比SoTA微调的闭集跟踪器更上级的性能。与最佳微调结果相比,NetTrack在OWTA上提高了1.3分,证实了所提出的框架的零射击泛化能力。2)与微调后的结果(线912)相比,闭集跟踪器在高度动态的开放世界场景中表现出次优的零次泛化能力(线13、14、17、18),在OWTA上平均下降16%,在HOTA上平均下降15%,在MOTA上平均下降21%,这表明闭集跟踪器对开放世界中的动态对象具有次优的泛化能力。3)NetTrack鼓励将潜在的感兴趣对象关联起来,并将检测召回率提高了3.4个点。这也导致更多的假阳性样本,并增加了压力的关联与轻微下降的A。然而,与最好的粗粒度关联方法(第24—27行)相比,综合OWTA提升了1.6分。
5.3.零样本迁移评估
开放词汇表设置上的零样本迁移
。Tab 2在开放词汇MOT评估的TAO上实现了零样本迁移。OVTrack [34]是在从LVIS [20]生成的数据集上训练的,该数据集与TAO具有高度的类一致性。与微调跟踪器相比,NetTrack显著提高了跟踪分类精度,并实现了强大的零样本跟踪精度。虽然NetTrack由于缺乏微调而容易受到大量假阳性样本的影响,这使得它在基础类中的LocA和AssocA的评估中处于略微劣势,但所提出的框架实现了ClsA的11.8点增加,LocA的2.5点增加,新类中的AssocA相当,以及整体TETA的4.5点增加,进一步展示了其竞争性的推广能力。开放世界设置上的零样本迁移NetTrack在TAO-OW [42]基准测试中的零样本泛化在Tab3中演示。除了NetTrack之外,所有跟踪器都对已知的TAOOW训练集进行了微调。与微调SoTA跟踪器相比,NetTrack在已知类别上实现了最佳性能。和地方Re.类似于开放世界跟踪基线(OWTB)[42],A.Acc.超过基线3.6分,证实了动态感知联想的泛化能力。同样,A.Acc.仍然近似于视频OWL-ViT [23],D.Re.显示出8.4分的改进,验证了细粒度定位的有效性。在未知类上,假阳性样本的引入导致A的略微下降。Acc.,但总体OWTA性能仍具有竞争力,提高了5.3分。
5.4.消融
细粒度网的一般性
在Tab 4、Tab 5,显示了TAO [8],TAO-OW [42],AnimalTrack [69]和GMOT 40 [1]上与细粒度Nets和粗粒度方法的拟议关联之间的比较。由于所提出的框架鼓励在开放世界场景中发现更多潜在的对象,NetTrack在LocA和D方面取得了显着的改进。Re.在四个基准测试中对可见和不可见的类进行测试。特别是D.Re.与第二好的性能相比,TAO-OW上未知类的性能显著提高了18.2分,证实了其强大的泛化能力。虽然假阳性样本的引入导致AssoA和A略有下降。Acc,整体TETA和OWTA在可见和不可见类中都有显著改善。
具有可拆卸模块的坚固框架
. 为了验证所提出的框架的通用性,图5示出了对可拆卸模块的消融研究,包括开集定位方法和点跟踪器。具体而言,定位方法表示为GLIP [32] I、接地DINO [41] II,点跟踪器表示为PIP [22] a、TAPIR [12] B、CoTracker [28] c。接地DINO和CoTracker的组合表示为II. c,并作为默认设置。在比较定位能力时,两种方法在D。Re.但[32]在A中表现出轻微的性能不足。由于引入了更多的假阳性,ACC和整体OWTA。类似地,三点跟踪器表现出近似优异的性能。总体而言,模块的变化不会显着降低整体性能,从而验证了所提出的框架的良好的泛化能力。
针对帧速率丢失的稳定性.
在开放世界跟踪的实际应用中,特别是在与边缘设备[40]相关的场景中,由于需要减少计算负荷或节省能源,经常会遇到视频帧速率降低的情况,这进一步加剧了开放世界对象的动态性带来的挑战。图6示出了在从默认帧速率(25FPS)到十分之一(3FPS)的降低的帧速率下对BFT数据集的跟踪性能。与其他关联方法[4,7,71]相比,NetTrack在帧速率降低的情况下表现出了良好的稳定性。这进一步说明了该框架的泛化性能。6.结论
针对开放世界MOT的高动态性,提出了NetTrack学习细粒度目标线索的方法。具体而言,细粒度的视觉线索和对象的文本对应关系的动态感知的关联和定位。这项工作还提出了一个高度动态的开放世界的MOT基准,BFT,和广泛的评估与SoTA跟踪器证明了所提出的NetTrack跟踪动态对象的有效性。此外,在几个具有挑战性的开放世界MOT基准测试上进行的大量迁移实验验证了NetTrack的强大泛化能力,无需微调。对局限性的分析表明,更精简的端到端方式和过滤假阳性样本有希望进一步改进。