基本信息
作者:李玺, 查宇飞, 张天柱, 崔振, 左旺孟, 侯志强, 卢湖川, 王菡子.
关键词:视觉目标跟踪; 深度神经网络; 相关滤波器; 深度孪生网络; 强化学习; 生成对抗网络
论文链接:http://www.cjig.cn/html/jig/2019/12/weixin/20191201.htm
论文看点
(1)阐述了目标跟踪的基本研究框架,从深度判别模型、深度生成式模型等方面介绍了适用于目标跟踪的深度学习方法;
(2)深入分析了网络结构、功能划分和网络训练等不同类别的深度目标跟踪方法;
(3)简要阐述了适用于深度学习目标跟踪的视频数据库和评测方法;
(4)介绍了目标跟踪的最新具体应用情况;
(5)分析了深度学习方法在目标跟踪中存在的训练数据不足、实时跟踪和长程跟踪等问题;
(6)对深度学习的目标跟踪方法的未来发展进行展望。
目标跟踪
LK Tracker(1981):假定目标灰度在短时间内保持不变,同时目标邻域内的速度向量场变化缓慢
KLT(1994):KLT(Kanade Lucas Tomasi tracking method)通过匹配角点实现对目标的跟踪
Condensation(1998):采用原始的外观作为主要特征来描述目标
Mean Shift(2002):均值漂移成为当时常用的视觉跟踪系统的搜索策略
Feature Selection(2003):利用线性判别分析自适应地选择对当前背景和目标最具鉴别性的颜色特征,从而分离出目标
IVT(2008):在线更新特征空间的基,直接将以前检测到的目标作为样本在线学习而无需大量的标注样本
Boosting(2008):结合Haar特征和在线Boosting算法对目标进行跟踪
TLD(2010):TLD(tracking learning detection)利用在线的Ferns检测目标,同时利用在线随机森林算法跟踪目标
L1 Tracker(2011):L1跟踪器把跟踪看做一个稀疏近似问题,通过求解L1范数最小化问题,实现对目标的跟踪
AlexNet(2012):以AlexNet网络为代表的深度学习方法在图像识别等领域获得了巨大成功,迅速被引入到目标跟踪领域中
CSK(2012):CSK(circulant structure of tracking by detection with kernels)算法,也称为核相关滤波算法,采用循环移位进行密集采样,并通过核函数将低维线性空间映射到高维空间,提高了相关滤波器的鲁棒性
DLT(2013):直接利用ImageNet数据上的预训练模型提取深度特征
DSST(2014):DSST(accurate scale estimation for robustvisual tracking)则将目标跟踪看成位置变化和尺度变化两个独立问题,首先训练位置平移相关滤波器以检测目标中心平移,然后训练尺度相关滤波器来检测目标的尺度变化
MDNet(2015):MDNet跟踪算法设计一个轻量级的小型网络学习卷积特征表示目标,利用SoftMax对采样样本分类,其性能表现非常优异,但速度只有1帧/s
SRDCF(2015):SRDCF(learning spatially regularized correlation filters for visual tracking)采用了大的检测区域,在滤波器系数上加入权重约束,越靠近边缘权重越大,越靠近中心权重越小,从而使得滤波器系数主要集中在中心区域,有效地缓解了边界效应
SiamFC(2016):SiamFC算法利用孪生网络(Siamese network),在视频序列ILSVRC2015离线训练一个相似性度量函数,在跟踪过程中利用该模型,选择与模板最相似的候选作为跟踪结果
C-COT(2016):C-COT(continuous convolution operators for visual tracking)将浅层表观信息和深层语义信息结合起来,根据不同空间分辨率的响应,在频域进行插值得到连续空间分辨率的响应图,通过迭代求解最佳位置和尺度
Struck(2016):Struck利用结构化的支持向量机(SVM)直接输出跟踪结果,避免中间分类环节,取得了优异的性能
CFNet(2017):CFNet将相关滤波改写成可微分的神经网络层,将特征提取网络整合到一起以实现端到端优化,训练与相关滤波器相匹配的卷积特征
ECO(2017):为了解决C-COT速度慢的问题,高效卷积算子ECO(efficient convolution operators)通过卷积因式分解操作、样本分组和更新策略对其改进,在不影响算法精确度的同时,算法速度提高了一个数量级
BACF(2017)BACF(background-aware correlation filters)通过补零操作获取更大搜索域的样本,进行循环采样时保证了真实的负样本
SiamRPN(2018):SiamRPN将目标跟踪构造成单样本检测任务,其网络结构分为特征提取Siamese子网络和候选目标区域生成RPN子网络。RPN子网络又包含分类和回归两条分支。SiamRPN可以利用ILSVRC和YouTube-BB大量的标注数据进行离线端到端训练,从而取得了较好的性能和跟踪速度
UPDT(2018):UPDT(unveiling the power of deep tracking)区别对待深度特征和浅层特征,利用数据增强和差异响应函数提高鲁棒性和准确性,同时利用提出的质量评估方法自适应融合响应图,得到最优的目标跟踪结果
SiamMask(2019):SiamMask是SiamRPN的后续之作。相比SiamRPN,SiamMask的网络结构增加了预测目标分割掩码的分支,从而给出了视觉目标跟踪(VOT)和视频目标分割(VOS)统一框架。SiamMask很好地实现了目标跟踪和目标分割任务之间的互相补充,不仅可以得到目标更精准的包围框,还可以得到目标的像素级标注
DiMP(2019):DiMP针对Siamese跟踪系列对于背景和目标区分性不足的问题,设计了一种鲁棒的判别能力较强的Loss,并通过端到端的训练学习Loss重点的关键参数。同时结合提出的权重预测模块对网络进行良好的初始化,最终DiMP在速度和准确性上都有所提高
UpdateNet(2019):UpdateNet旨在解决Siamese跟踪系列一直存在的模板更新难题,提出了用学习更新模板的方式来替代手工更新模板的方式。UpdateNet使用一个卷积神经网络根据初始帧模板、当前帧模板以及上次计算出的模板直接生成下一帧可用的最优模板,通过学习这样一个网络函数来实现模板更新功能
未来展望
现阶段,基于深度学习的目标跟踪方法仍主要停留在基于ImageNet预训练的特征应用层面。随着TrackingNet等大规模数据集的出现,使得基于海量跟踪视频端对端地学习深度特征成为可能,有望进一步推进深度学习在视觉目标跟踪中取得突破性进展。
相对而言,标注长程跟踪视频和构建大规模数据集的难度更大,如何根据长程跟踪任务的特点及其与短期跟踪任务的联系,结合迁移学习和深度学习构建合适的长期目标跟踪模型,也是未来视觉目标跟踪研究值得关注的一个重要方向。