行人重识别综述
一般来说,行人重识别属于各种ID识别方法的一个子类。我们姑且将ID识别定义为通过可测量的人类生物特征对人们ID进行鉴别的一种技术。一般而言,我们会使用传感器或者摄像头等来读取生物的特征信息,将读取的信息和用户在数据库中的特征信息比对,来鉴别人物的ID。生物特征分为身体特征和行为特征。身体特征包括指纹、掌型、视网膜、虹膜、人体气味、脸型、手的血管和DNA等;行为特征包括签名、语音、行走步态等。ID识别有两方面的作用,一是作用于门禁、支付等身份认证系统,另一个是作用于监控系统。在身份认真领域,我们可以使用指纹识别、人脸识别等技术;在监控领域,一种常用的方式是人脸识别。但是在很多情况下,由于监控摄像头清晰度的问题,我们很难获得清晰的人脸图,这个时候利用人体全身图的特征进行ID分析可能是更好的选择,这就是所谓的行人重识别。行人重识别与人脸识别十分相似,都是为了解决ID识别问题,不同的是人脸识别主要分析人脸图片,而行人重识别则是分析人的全身图。目前学术界做行人重识别的人,很多都是做人脸识别的那波人转过来的,因为好发论文。
行人重识别问题定义
本文将行人重识别一般问题表述如下:给定一个我们关心的人物的全身图片(query),通过某些算法,从行人全身图数据库(gallery)中找出与该人最为接近的一张或几张图片。
上述过程又可以划分为两种方案。第一种情况是,随机给定两个人的图片,将这两张图片作为系统输入,我们希望系统输出一个概率值,表示两张图属于同一个ID的概率,这就归结为一个二分类问题。但是这种方案的问题在于,阈值不好设定。目前主流的方案中,还是将行人重识别过程当作一个检索(retrieval)问题,系统一般会将query在与gallery中的图集逐一对比,然后进行相似度排名,返回一个candidate list。基于检索的行人识别方案带来的问题是,运算复杂度随着gallery集增加而增大,而且不好做成实时系统。
基于图片的行人重识别问题
如果我们的query集和gallery集的数据单位都是单帧的图片,这就属于基于图片(image-based)的行人重识别问题。由于行人重识别问题还存在很多技术问题有待研究,因此大家一般会将目标检测和重识别放在两个框架下来做,也就是说query集和gallery集都是经过detector裁剪好的行人框,我们只需专注于重识别问题即可。当然也有人用摄像头采集的原始图片直接作为gallery集,将原图行人检测问题+重识别问题放在一起,做成一个end-to-end模型。end-to-end模型的一个典型做法是,将各种detector和recogniser进行随机组合,来观测不同组合的效果。总的来说detector的准确率和效率会影响recogniser的检测结果。
基于视频的行人重识别问题
如果我们的query集和gallery集的数据样本不是单张图,而是一段连续帧的图集,这样图集由于包含了时序信息,系统准确率肯定高于基于图片的重识别方法。目前,已经有一些video-based的行人重识别数据集,比如MARS。当然,凡是涉及到时序相关的深度学习方法,必然涉及到LSTM或者GRU这些时序网络(RNN)。显然,GPU处理起RNN来要比CNN困难许多,效率也更低。
行人重识别论文笔记
A Multi-task Deep Network for Person Re-identification
这篇文章主要做了loss设计和跨数据集训练两方面的工作。
在训练神经网络的过程中,作者采用了多任务的训练方法,即在不同的网络层,设计出不同的损失函数,交叉地训练神经网络。首先,以三张图片(其中两张ID相同)作为输入,在神经网络的第二层卷积层提取图片特征, 以图片特征的距离函数作为损失函数,希望相同ID的图片之间的距离函数取值尽可能大,不同ID图片之间的距离函数值尽可能小;上述损失函数被称作triplet loss。其次,以两张图片作为输入,在神经网络的末端输出二分类信息(即两张图片ID相同的概率),以CE作为损失函数。上述两个过程一般交叉进行。作者对此给出的解释是,图片在浅层神经网络提取的特征一般表现细节信息,所以用距离损失函数来度量两张图片的差异性;而在深层网络的特征一般表现高层语义信息,所以直接用二分类损失函数来训练。
在最近的学术研究中,基于多个损失函数的多任务训练方式被广泛使用,损失函数的设计也各式各样,如center loss,coupled clusters loss,structured loss,quadruplet loss,以及各种改进版本,但是其中真正有意义设计的并不多。
在行人重识别这个领域,单一数据集的规模实在太小了,同时由于不同数据集的数据分布方差过大,因此也不能将这些数据集通通放在一起进行训练。因此作者提出了一种cross domain的架构。将非目标数据集作为辅助训练集,以提升模型在目标数据集上的表现。其思路为:在目标数据集选取一对image pair,提取联合特征Fa,并打上标签label1(0表示两张图同id,1则相反);同时在辅助训练集选取一对image pair,提取联合特征Fb,并打上标签label2;记y=label1 XNOR label2;最后用如下损失函数来微调网络:
除了这片文章的思路,其他的数据增强技术还有GAN方法、非监督性学习、半监督性学习等。
Re-ranking Person Re-identification with k-reciprocal Encoding
这篇文章的主要工作主要放在re-rank上面。这种方法方法显得略微丑陋,给人的感觉是不够“智能”。但是目前来说,re-rank方法的各种变体为大家广泛使用,而且效果很不错。re-rank的核心思路在于:如果给定query A,系统从gallery中找出规模为k的candidate list,其中就包含了B;然后再给定 query B ,系统给出的candidate list返回了A,那么这种情况下,我们是不是应该认为A与B属于同一ID的可能性更高呢?或者说A与B在candidate list中的位置是不是应该提前呢?
论文中给出如下定义:如果B出现在A的candidate中,同时A也出现在了B的candidate 中,那么A和B就互为k-reciprocal neibours(k为candidate list的长度)。这样一来,person-reid的过程可分为两步:首先,根据query A给出相应的candidate list;然后根据candidate list中的元素与query A的reciprocal neibours关系进行re-rank,得到最终的candidate list。
在实际过程中,本文将不同图片之间的reciprocal关系进行了0-1编码,在系统初始化阶段就完成了全部图片的互惠近邻关系计算;也就是说对于一个规模为N的gallery集,每张图需要一个N*1的向量来表示其近邻关系,总共需要维护一个N*N的稀疏矩阵,我们姑且称之为互惠最近邻矩阵。随着时间推移,gallery会添加新的图片,系统则每过一段时间互更新一次矩阵。对于有些新加入gallery的图片,可能没有及时更新其互惠近邻信息,作者则采用Local Query Expansion方法来做近似处理。
SVDNet for Pedestrian Retrieval
这篇文章的工作主要工作在于将SVD应用到了feature工程上面,是一个不错的思路。目前尚不清楚这种方法是否由作者最先提出,但该方法也可能运用于其他任务的神经网络训练中。
在理想状态下,我们总是希望深度学习能自动解决机器学习的特征提取问题,但是现实往往并非如此,数据样本的匮乏,让我们不得不做一些人工干预。
一方面,根据对训练好的网络进行观察,作者发现全连接层的权重向量(weight vectors)之间通常具有很高的相关性。对于高相关性的问题,作者认为有两个可能的原因:1.训练样本不是随机分布的。这个原因在最后一个全连接层尤为明显。因为最后一层中每个神经元的输出表示输入图片与对应的identity之间的相似程度。2.由于训练CNN的过程中缺少将参数向正交化方向学习的限制,因此很可能自然就学习到相关性很高的权重向量。
另一方面,使用特征向量的距离函数(如欧式距离等)进行相似性判断时,我们一般要基于一个核心的假设:特征向量之间应该是相互独立的。然而当权重向量之间相关性很高的时候,对应层输出的特征向量的每个分布也具有相关性。从而使得利用欧式距离判断相似性的时候存在误差。如上图所示,两个不同的人经过网络之后得到绿色和黑色的两个特征向量,由于他们投影到红色和粉色weight vector上的距离很近,而投影到蓝色weight vector上的距离较远。在这种情况下,利用欧式距离将有可能忽略蓝色weight vector的影响,从而认为两者是相似的。这是论文作者给出的解释,我认为还是比较有说服力的。
为了去除权重向量之间的相关性,作者提出采用SVD方法来对权重向量进行调整。作者将这个调整过程明名为RRI(Restraint and Relaxation Iteration),其主要步骤如下:
1. Decorrelation:首先基于某个baseline得到pre-trained的网络模型,随后用W_=US替换原有的W,并在网络模型末端加入一个新的网络层,作者称之为Eigenlayer。
2.Restraint:固定Eigenlayer层,对其前面的网络参数进行微调。这个过层主要是对 EigenLayer 层之前的网络参数进行调整。
3.Relaxation:微调整个网络,这一步中EigenLayer层的参数也要进行同步调整。
SVD的分解过程为W=USV‘。作者证明在用W_替代US的情况下, 原来网络的性能不会损失,但是原来已经收敛的网络由于进行了一波降维,变得不再收敛,于是我们又可以愉快地进行训练了。重复上述三步,得到最终的网络模型,作者称之为SVDNet。作者给出的数据声称,在原baseline的基础上,该方法使得模型准确率提高了接近10%。
总结
本文中提到的三篇论文基本上涵盖了person-reid的各个方面(只针对image-based的方法而言),侧重点不尽相同,而且都能一定层度上提升准确率。我们对这些方法进行组合,再添加一些trick,一般就能取得不错的效果。
Zheng L, Yang Y, Hauptmann A G. Person Re-identification: Past, Present and Future[J]. 2016.
Chen W, Chen X, Zhang J, et al. A Multi-task Deep Network for Person Re-identification[J]. 2016.
Zhong Z, Zheng L, Cao D, et al. Re-ranking Person Re-identification with k-reciprocal Encoding[J]. 2017.
Sun Y, Zheng L, Deng W, et al. SVDNet for Pedestrian Retrieval[J]. 2017.