1.数据选取
CUVideo、NUIST和MCG-ICT-CAS使用ILSVRC VID+DET作为训练集
ITLab-Inha使了ILSVRC VID+DET、COCO DET等作为训练集。
需要注意的是在构建新的训练集的时候要注意平衡样本并去除冗余(CUVideo和MCG-ICT-CAS抽取部分VID训练集训练模型,ITLab-Inha在每个类别选择一定数量图像参与训练,NUIST使用在DET上训练的模型对VID数据进行筛选)。对于同样的网络,使用扩充后的数据集可以提高10%左右的检测精度。
2.网络结构选取
我们在VID验证集上进行实验:同样的训练数据,基于ResNet101[6]的Faster R-CNN[7]模型的检测精度比基于VGG16[8]的Faster R-CNN模型的检测精度高12%左右
3.改进分类损失
T-cnn中的运动指导传播(Motion-guided Propagation, MGP)和多上下文抑制(Multi-context suppression, MCS)
4.利用跟踪信息修正
上文提到的MGP可以填补某些视频帧上漏检的目标,但对于多帧连续漏检的目标不是很有效,而目标跟踪可以很好地解决这个问题。CUVideo, NUIST, MCG-ICT-CAS以及ITLab-Inha四支参赛队伍都使用了跟踪算法进一步提高视频目标检测的召回率。使用跟踪算法获取目标序列基本流程如下:
-使用图像目标检测算法获取较好的检测结果;
-从中选取检测得分最高的目标作为跟踪的起始锚点;
-基于选取的锚点向前向后在整个视频片段上进行跟踪,生成跟踪轨迹;
-从剩余目标中选择得分最高的进行跟踪,需要注意的是如果此窗口在之前的跟踪轨迹中出现过,那么直接跳过,选择下一个目标进行跟踪;
-算法迭代执行,可以使用得分阈值作为终止条件。
5.网络选择与训练技巧
对于视频目标检测,除了要保证每帧图像的检测精度,还应该保证长时间稳定地跟踪每个目标。为此,ILSVRC2016新增一个VID子任务,此任务计算每个目标跟踪轨迹(tracklet)/管道(tubelet)的mAP来评测检测算法的时序一致性或者说跟踪连续性的性能。