CV学习笔记(三十):人脸识别流程分析

*理论联系实际,记录下读《Deep Face Recognition: A Survey》的心得体会

一个完整的人脸识别流程应该包含以下几个模块:

1:人脸的检测: 定位图片中存在人脸的位置

2:人脸的对齐: 对齐人脸到正则坐标系的坐标

3:人脸的识别:

①:活体的检测

②:人脸的识别-面部姿态(处理姿态,表情,遮挡等),特征提取,人脸比对

上述流程中,第三步是整个系统的关键。

一:人脸识别的四个发展阶段

如图所示,回顾漫长的人脸识别的发展历程,大致可以划分为4个阶段

①:1964-1990:初步尝试

这个阶段是属于人脸识别的探索阶段,人们尝试使用一些简单的算法来初步尝试人脸的机器自动识别,人类最早的研究工作至少可追朔到二十世纪五十年代在心理学方面的研究和六十年代在工程学方面的研究。这一阶段主要是从感知和心理学角度探索人类识别人脸机理的,也有从视觉机理角度进行研究的。

②:1991~2000:快速发展

这一阶段研究的重点在人脸识别所需要的面部特征。研究者用计算机实现了较高质量的人脸灰度图模型。这一阶段工作的特点是识别过程全部依赖于操作人员,不是一种可以完成自动识别的系统,以至于这个阶段的人脸识别所需求的条件非常严苛,但是依然产生了一些极具影响力的算法和理论。

③:2000~2012:走向人机交互

这一阶段可以理解为是上一阶段的提升和改进,设计的系统可以对姿态,表情,光照,遮挡等环境条件进行处理,主要研究用几何特征参数来表示人脸正面图像。采用多维特征矢量表示人脸面部特征,并设计了基于这一特征表示法的识别系统。实质上这一阶段的算法(SVM,Boosting),实质上可以理解为带着一层隐藏节点的浅层学习,但是泛化能力依旧有限。这一阶段,人脸识别开始逐渐成熟,一些实用的系统开始诞生

④:2012~至今:快速发展

这一阶段,人脸识别的主流算法开始转为深度学习,深度学习的典型代表应用便是人脸识别,大计算、大数据、大模型则是深度神经网络的三大支柱与基础。第四阶段大量实用的系统与成功的应用案例出现,许多现象级别的网络结构开始出现,许多新兴的人脸识别公司也开始诞生。

二:人脸识别的算法流程

人脸的识别流程:面部姿态处理(处理姿态,亮度,表情,遮挡),特征提取,人脸比对。

1:面部处理face processing

这部分主要对姿态(主要)、亮度、表情、遮挡进行处理,可提升FR模型性能

两种方式:

one to many:从单个图像生成不同姿态的图像,使模型学习到不同的姿态

many to one:从多个不同姿态的图像中恢复正则坐标系视角下的图像,用于受限条件

2:特征提取 feature extraction

特征提取网络可分为backboneassembled两类

主干网络(Backbone network):一些通用的用于提取特征的网络

组装网络(Assembled network):用于拼接在主干网络前/后的用于特定训练目标的网络

Backbone Network

①:Mainstream architectures

主流的网络架构包括AlexNet,VGGNet,GoogleNet,ResNet,SENet等

​ AlexNet:引入ReLU,dropout,data augmentation等,第一次在图像上有效使用Conv

​ VGGNet:提出重复用简单网络块堆叠;滤波器3x3减少权重量,增强表示能力

​ GoogleNet:1x1跨通道整合信息,同时用于升降维减少参数;并行结构由网络自行挑选最好的路径;多个出口计算不同位置损失,综合考虑不同层次的信息

​ ResNet:引入残差块,削弱层间联系,提高模型容忍度;使得信息能跨层注入下游,恢复在信息蒸馏过程中的丢失的信息;残差块部分解决梯度消失

​SENet:在上述网络中嵌入Squeeze-and-Excitation块,通过1x1块显式地构建通道间相互关系,能自适应的校准通道间的特征响应。

Squeeze:全局平均池化得到1x1xC用于描述全局图像,使浅层也能获得全局感受野;

Excitation:使用FC-ReLU-FC-Sigmoid(类似门的作用)过程中得到各通道权重,然后rescale到WxHxC。从全局感受野和其它通道获得信息,SE块可自动根据每个通道的重要程度去提升有用的特征的权重,通过这个对原始特征进行重标定。

Special architectures

除了主流的最广泛使用的网络架构,还有一些特殊的模块和技巧,如max-feature-map activation,bilinear CNN,pairwise relational network等

Joint alignment-representation networks

这类模型将人脸检测、人脸对齐等融合到人脸识别的pipeline中进行端到端训练。比起分别训练各个部分的模型,这种端到端形式训练到的模型具有更强的鲁棒性

②:Assembled Network

组装网络用于拼接在主干网前或后方,用于多输入或多任务的场景中

Multi-input networks

在one-to-many这类会生成不同部位、姿态的多个图像时,这些图片会输入到一个multi-input的组装子网络,一个子网络处理其中一张图片。然后将各个输出进行联结、组合等,再送往后续网络。

如下图所示的多视点网络Multi-view Deep Network (MvDN)进行cross-view recognition(对不同视角下的样本进行分类)

multi-task networks

在某些情景中,人脸识别是主要任务,若需要同时完成姿态估计、表情估计、人脸对齐、笑容检测、年龄估计等其余任务时,可以使用multi-task组装网。

如下图Deep Residual EquivAriant Mapping (DREAM),用于特征层次的人脸对齐

3:损失函数 loss function

①:Euclidean-distance-based loss:(上图绿色)

基于欧几里得距离损失是一种度量学习方法,它通过对输入图像提取特征将其嵌入欧几里得空间,然后减小组内距离、增大组间距离,包括contrastive loss,triplet loss,center loss和它们的变种

contrastive loss:

损失计算需要image pair,增加负例(两张图不同脸)距离,减少正例(同脸)距离。它考虑的是正例、负例之间的绝对距离,表达式为:

其中yij=1表示xi,xj是正例pair,yij=0表示负例pair,f(.)表示特征嵌入函数

Triplet loss

该损失计算需要triplet pair,三张图,分别为anchor, negative, positive。最小化anchor和positve间距离,同时最大化anchor和negative间距离,表达式为

注意,数据集中大多数的人脸之间都很容易区分,容易区分的triplet pair算出来的L很小,导致收敛缓慢,因此triplet pair选择的时候需要选择难以区分的人脸图像

Center loss

该损失在原损失的基础上增加一个新的中心损失LC,及每个样本与它的类别中心之间的距离,通过惩罚样本与距离间的距离来降低组内距离

②:Angular/cosine-margin-based loss(黄色)

基于角度/余弦边缘损失,它使得FR网络学到的特征之间有更大的角度/余弦

Softmax

L-Softmax

令原始的Softmax loss中:

同时增大yi对应的项的权重可得到Large-margin softmax。该权重m引入了multiplicative angular/cosine margin

二分类的分类平面为

L-softmax存在问题:收敛比较困难,||W1||,||W2||通常也不等

A-softmax (SphereFace)

在L-softmax的基础上,将权重L2正则化得到||W||=1,因此正则化后的权重落在一个超球体上

二分类的分类超平面为:

CosFace / ArcFace

与A-softmax相同思想,但CosFace/ArcFace引入的是additive angular/cosine margin

各类损失函数对比:

4:面部匹配 face matching

对面部认证、面部识别任务,多数方法直接通过余弦距离或者L2距离直接计算两个特征图的相似性,再通过阈值对比threshold comparison或者最近邻NN判断是否为同一人。此外,也可以通过Metric learning或者稀疏表示分类器sparse-representation-based classifier进行后处理,再进行特征匹配

5:数据集

数据集的Depth、Breadth

Depth

不同人脸数较小,但每个人的图像数量很大。Depth大的数据集可以使模型能够更好的处理较大的组内变化intra-class variations,如光线、年龄、姿态。

VGGface2(3.3M,9K)

Breadth

不同人脸数较大,但每个人的图像数量较小。Breadth大的数据集可以使模型能够更好的处理更广范围的人群。

MS-Celeb-1M(10M,100K)、MegaFace(Challenge 2,4.7M,670K)

数据集的data noise

由于数据源和数据清洗策略的不同,各类数据集或多或少存在标签噪声label noise,这对模型的性能有较大的影响。

数据集的data bias

大多数数据集是从网上收集得来,因此主要为名人,并且大多大正式场合。因此这些数据集中的图像大多数是名人的微笑、带妆照片,年轻漂亮。这与从日常生活中获取的普通人的普通照片形成的数据集(Megaface)有很大的不同。

另外,人口群体分布不均也会产生data bias,如人种、性别、年龄。通常女性、黑人、年轻群体更难识别。

6:评估任务及性能指标

①:training protocols

subject-dependent protocol:所有用于测试的图像中的ID已在训练集中存在,FR即一个特征可分的分类问题(不同人脸视为不同标签,为测试图像预测标签)。这一protocol仅适用于早期FR研究和小数据集。

subject-independent protocol:测试图像中的ID可能未在训练集中存在。这一protocol的关键是模型需要学得有区分度的深度特征表示

②:Evaluation metric

Face verification:性能评价指标通常为受试者操作特性曲线(ROC - Receiver operating characteric),以及平均准确度(ACC)

Close-set face identification:rank-N,CMC (cumulative match characteristic)

Open-set face identification:

三:一些新的前景

①:Cross-Factor Face Recognition

Cross-Pose:正脸、侧脸,可使用one-to-many augmentation、many-to-one normalizations、multi-input networks、multi-task learning加以缓解

②:Heterogenous Face Recognition

NIS-VIS FR:低光照环境中NIR (near-infrared spectrum 近红外光谱)成像好,因此识别NIR图像也是一大热门话题。但大多数数据集都是VIS (visual ligtht spectrum可见光光谱)图像。-- 迁移学习

Low-Resolution FR:聚焦提高低分辨率图像的FR性能

Phote-Sketch FR:聚焦人脸图像、素描间的转换。 -- 迁移学习、image2image

③:Multiple (or single) media Face Recognition

Low-Shot FR:实际场景中,FR系统通常训练集样本很少(甚至单张)

Set/Template-based FR

Video FR:两个关键点,1. 各帧信息整合,2. 高模糊、高姿态变化、高遮挡

④:Face Recognition in Industry

3D FR

Partial FR:给定面部的任意子区域

Face Anti-attack:

FR for Mobile Device

四:参考资料

1:Deep Face Recognition: A Survey

https://arxiv.org/pdf/1804.06655.pdf

2:Deep Residual EquivAriant Mapping https://openaccess.thecvf.com/content_cvpr_2018/html/Cao_Pose-Robust_Face_Recognition_CVPR_2018_paper.html

3:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

https://arxiv.org/pdf/1703.1059

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342