题目: Unsupervised Graph Association for Person Re-identification
作者:Jinlin Wu, Yang Yang, Hao Liu, Shengcai Liao, Zhen Lei , and Stan Z. Li
code repository:Unsupervised-Graph-Association-for-Person-Re-identification
1.前言
本文是在Tracklet的基础上进行拓展,Tracklet 的相关文章为:
1.ECCV 2018: Unsupervised Person Re-identification by Deep Learning Tracklet Association,
2.TPAMI 2019 Unsupervised Tracklet Person Re-Identification
主要创新点为:
①. 单摄像头沿用Tracklet的用法,由于Tracklet对是假设单摄像头下每个人的图片是已知的,这种做法对Image RE-ID是能带来很高的效果提升的.(类似弱监督)
②. 跨摄像头通过构造一个轻量的图来挖掘跨摄像头的正样本,通过改进softmax loss 来拉近彼此之间的距离
2.方法
总体框架如上图所示,主要分为两部分,分别为各个摄像头内部Tracklet的学习(为后续跨摄像头学习服务)和跨摄像头间候选正样本的学习.
(1) Intra-camera learning
模型结构为多分支,前面抽特征的骨干网络为各个摄像头共享,后面分类的时候, 对每个摄像头内部各自进行分类. 即Softmax的归一化是针对每个摄像头内部的归一化,使用的loss如下:
其中指摄像头,为摄像头的第个轨迹, 为轨迹的第张图片,为该摄像头总共有个轨迹, 为摄像头的最后一层全连接(即分类层)的权重. 为batch size 大小. 为骨干网络抽取视觉模型.
小结: 正常Softmax+cross entropy 训练各个摄像头的"分类"结果.
(2)Inter-camera learning
在(1)的基础上,由于前面抽视觉特征的模型共享,所以骨干网络已经大概学习到了一些跨摄像的信息.现在就是来把跨摄像头的信息连结起来.
由于单摄像头下面每个人图片已经按照Tracklet组在一起了,在寻找跨摄像头的联系的时候,可以从Tracklet 与 Tracklet 的这个粒度取去找寻,而不用图片与图片之间.
所以先计算每个Tracklet 的代表特征,文中使用的是轨迹下面图片的平均特征:
之后寻找跨摄像头的正样本,采用的办法为阈值切断+对称约束, 其中对称约束就是互为top-K:
文中取1.
所以最终样本的目标权重设置为:
下面应该去拉近跨摄像头的距离,同样采用多分支的结构.
这里有个比较漂亮的式子.就是现在把多分支的分类层的权重值每一行设为,即每个Tracklet的核心,然后衡量摄像头下的第图片与摄像头的第个人之间的相似性, 其中摄像头的第个人用tracklet的核心来表示.优化的loss为:
在每个摄像头内部都去做跨摄像头的拉近.代码写起来也好写,跟第一阶段比较承接.
同时现在每个摄像头的分类层是预设了权重的,预设权重为每个tracklet的核心,但是这个分类层同样是可以训练的,非常巧妙!!!!
不会因为挖掘的信息是"过时"的,而导致训练的时候容易学了几个batch size 就过拟合.
3.实验
(1)阈值的范围:
(2)消融实验:
可以见到,只有intra-camera的label,效果已经很爆炸了.
4.总结
Tracklet 的方法其实是比较"偷走一步"的方法,在这基础上可以拓展的实验效果都是非常爆炸,几乎接近有监督的.这对我们来说是非常妙的事情.
REID之所以要做无监督/弱监督,就是因为跨摄像头的数据是难以获取的,所以只是知道同摄像头的label就能达到这么爆炸的效果,还是非常有影响力的.