Seeing Voices and Hearing Faces: Cross-modal biometric matching

我们介绍了一个看似不可能完成的任务:只给某人一段讲话的音频，从两张人脸图像中判断出哪个是说话者。在本文中，我们研究了这一点，以及一些相关的跨模态任务，旨在回答以下问题:我们能从脸部周围的声音推断出多少信息，反之又能推断出多少信息?

我们在野外研究这个任务，使用目前公开的数据集，从静态图像识别人脸(VGGFace)和从音频识别说话人(VoxCeleb)。这为跨模态匹配的静态和动态测试提供了训练和测试场景。我们做了以下贡献:(i)我们引入了用于二值和多路交叉模态的人脸和音频匹配的CNN架构;(ii)我们将动态测试(有视频信息，但音频不是来自同一视频)与静态测试(只有一幅静态图像)进行比较;(iii)我们使用人体测试作为基准来校准任务的难度。我们证明，一个CNN确实可以在静态和动态场景下训练来解决这个任务，甚至在基于声音的人脸的10路分类上比概率高得多。CNN在简单的例子(例如不同性别的面孔)上匹配人类的表现，但在更具挑战性的例子(例如相同性别、年龄和国籍的面孔)上却超过人类的表现1。

这项任务之所以能够完成，是因为存在着两种模式所共有的因素;特别是，特定的潜在属性(如年龄、性别、种族/口音)会影响面部外观和声音。除了这些，还有其他更微妙的跨模态生物特征。生物学和进化感知[52]的研究表明，青春期的荷尔蒙水平影响面部形态和音高。男性睾丸激素和雌激素的比例越高，眉脊越突出，下巴越宽，眼睛越小，嘴唇越薄，而位于喉部的声带也会增大，从而导致音高[17]越低。女性的情况也类似，较高的雌激素水平会导致大眼睛和丰满的嘴唇[48]，并阻止声带增大，导致高音[17]。除了上述静态特性外，给定视频流，我们期望存在更多的(动态)跨模态生物特征。例如，说话的方式可以是一个重要的跨模态生物特征。Sheffert和Olson[40]认为，关于一个人独特说话风格的视觉信息与说话者的听觉属性有关。这一联系的起源在于语音产生的机制，当形成声道时，它决定了面部运动和语音[19]。

这本身就是一个有趣的科学结果，它不仅证明了跨模式生物特征匹配确实有可能解决问题，而且这项技术也有实际应用，尤其是在监控方面。想象一下下面的场景:我们仅有的关于一个人的信息是一些说话(音频)样本，因为这些数据是从电话谈话中记录下来的。然后我们想要从视频流(例如CCTV)中识别个人。一个比较好的应用是对电视和电影材料中的字符进行自动标注，在这些材料中可以听到字符，但不能看到字符，因此可以使用交叉模式匹配来推断标签。

在本文中，我们使用在大规模数据集上训练的深度学习工具来解决这个问题。我们做了以下的贡献:首先，我们介绍了一个CNN架构，它可以摄取人脸图像和语音谱图，并且能够推断出它们之间的对应关系。该网络是在一个大规模的数据集上进行训练的，其中包括来自相同身份的声音(Vox- Celeb[33])和面孔(VGGFace[36])。其次，我们使用静态映像、动态映像或两者都使用来研究网络的性能。与感知文献的发现相反，我们表明，使用静态图像比单独使用随机图像更好地解决任务，并且使用动态图像进一步提高了性能。我们也使用AMT进行了我们自己的人类性能研究。最后，我们将两种不同的强制选择架构归纳为多路分类和报告结果，以完成这一更具挑战性的任务。

二、相关工作

人类感知研究:在探索人脸和声音的跨模态匹配的研究中，使用人类参与者的广泛共识是，只有当有关发音模式的动态视觉信息可用时，匹配才有可能[19,26,37]。特别的是，研究已经证明了个人独特的说话风格、他们的声音和他们的脸的移动方式之间的耦合[13,27,53]，这表明动态信息的存在可以被用来解决匹配任务。虽然这些研究表明静态人脸语音匹配性能处于偶然水平[19,26]，但我们注意到，已有研究对这一观点提出了挑战[24,43]。然而,尽管克劳斯等。[24]表明,人们可以匹配一个声音与above-random精度两种静态图像,刺激全身的图片而不是图片的面孔,这可能提供额外的信息来告知准确的匹配(参见[44]的详细讨论这些矛盾的结果)。值得注意的是，这项任务的难度高度依赖于提供的特定刺激集，正如我们在这项工作中所显示的，一些面部-声音组合比其他组合更有特色。

人脸识别和说话人识别:人脸识别和说话人识别是视觉和语音研究领域长期存在的问题，因此对这些问题的深入研究超出了本研究的范围。然而，我们注意到，最近出现的具有大数据集的深度cnn在人脸识别[21,36,46,47]和说话人识别[14,33,39,45]方面都取得了相当大的进展。不幸的是，虽然这些识别模型已被证明在从单一模态学习表征方面非常有效，但在跨模态学习表征的一致性方面还不够发达。在这项工作中，我们通过开发一个多模态架构来解决这个问题，该架构直接从人脸和声音中摄取数据，并学习它们之间的对应关系。

跨模式匹配:使用可视化数据和文本(自然语言)进行跨模式匹配受到了相当多的关注。方法已经被开发来建立从图像[16,20,23,25,50]和视频[49]到文本描述(例如字幕)的映射，从文本[51,57]生成视觉模型，并解决视觉问题回答问题[1,29,31]。然而，在视频和音频的交叉模态匹配中，特别是在生物特征识别(人或说话人识别)领域的工作是有限的。最近的工作已经开始探索场景和物体的视听匹配[2,3,4,35]和视听语音识别(唇读[12]，唇同步[11]等)的任务。在生物识别学中，也有研究使用两种模式来提高表现[7,22]，但没有一种模式来识别另一种。Le和Odobez[28]使用面部嵌入的迁移学习来尝试提高说话者的diarisation效果。我们能找到的解决类似于这里提出的任务的唯一尝试是[38](但仅限于视频而不是静止的人脸图像)。这项工作试图将一种特征的统计模型映射到另一种特征的统计模型。在M2VTS视听数据库中对25名从0到9的男性受试者进行评估。相比之下，我们的目标是在大范围、野外以及不受约束的采访视频中更长的、更自然的语音片段中解决这个任务。

三、跨模态模型

对于两个人脸之间的强制匹配和语音输入(V-F公式)，我们的目标是识别一对给定的人脸中的哪一个具有与语音相同的身份。由于这个问题承认F-V公式的自然对称(两个声音和一张脸之间的匹配)，我们的方法的每个组成部分可以很容易地适应任何一个任务。为了使符号更清晰，我们着重描述V-F公式。强制匹配任务的定义如下:设x = {v, f1, f2}表示一个锚点语音段v和两个人脸图像f1, f2组成的集合。每个输入集x包含一个正的和一个负的面，其中face fi被定义为正的，如果它与锚点声音具有相同的身份，否则为负的。我们提出的匹配任务作为一个二分类问题，其目标是预测正脸的位置y $\in$ {1,2}。对于已知身份的图像和声音，我们可以通过简单的随机化每张面孔对中正脸的位置来构造一个训练示例D = ${(xn, yn)}_{n=1}^N$ 的数据集。学习问题对应最大化似然: $\theta$ = $argmax_{\theta}$ L( $g_{\theta }$ ;D)，其中 $g_{\theta }$ 为待学习的参数化模型。要最小化的损失可以被定义为目标标记位置上的交叉熵损失。

我们实例化 $g_{\theta }$ 为一个三数据流卷积神经网络，灵感来自于[15]中提出的odd-one-out的网络架构。然而，我们的强制匹配任务是独特的，因为我们想在两种不同的模式下执行它。我们的模型设计包括三个特定模态的子网络(或流);两个摄取图像数据的参数共享面部网络和一个摄取光谱图的语音网络。然后，这三个流通过一个融合层(通过特性连接)合并，并被送入顶层的模式共享的完全连接层。需要融合层使网络能够在人脸和声音之间建立通信。

因此，我们的模型有两种层，模态特定层(人脸和声音)和两种模态共享的更高水平层。类似于[3]的动机,这种架构背后的基本原理是迫使早期层专门形态具体特征(如边缘面对图像和光谱模式音频片段),同时允许后层获取更高级的潜在的跨通道变量(如性别、年龄、种族和身份)。为了清晰,我们在这里陈述我们在本文中解决的三个主要任务:1)静态匹配，只使用静止的人脸图像,2)动态匹配，包括语音过程中的人脸视频,和3)n路分类，这是一个扩展的匹配任务的任何数量的面孔(大于2)。这些任务在第5节中有更详细的描述。为了捕获动态的人脸外观，我们引入了一个额外的子网络，它吸收从视频中提取的动态特征。为了激发这些子网络的设计，我们接下来讨论它们将在其上运行的输入表示。

3.1输入表示

声音:语音流的输入是直接从原始音频中提取的短期幅度谱图。音频流从视频中提取，并以16kHz采样率转换为单通道的16位流以保持一致性。然后以类似于[33]的方式生成声谱图，为三秒钟的讲话提供大小为512*300的声谱图。我们对频谱的每个频率库执行均值和方差归一化，但不应用进一步的特定于语音的预处理(例如，沉默去除，语音活动检测，或背景噪声抑制)。

静态人脸:人脸流的每个输入都包含一个RGB图像，它是从源图像中裁剪出来的，只包含人脸周围的图像区域。这些作物的位置由我们实验中使用的数据集提供(将在第4节中进一步讨论)。结果区域然后被调整为一个固定的224*224输入

动态人脸:将视频数据中包含的带注释的人脸区域处理为人脸轨迹，定义为具有相同身份的连续帧序列。为了从特质说话风格利用动态的跨模态信息，运动估计是必需的。先前的研究试图仅通过视觉信息进行说话人识别[8,9,34,56]，往往主要集中在嘴唇区域。而有用的生物识别信息集中在嘴唇,(如当发出相同的音素或词,不同的人有不同的嘴形状[34]),我们假设其他面部特征的运动,如眼睛和眉毛,甚至整个头部的运动在演讲期间,可能是有用的生物特征识别的线索。因此，我们希望能够使用能够从每个完整面部轨迹中提取时间信息的数据表示。

人们提出了各种各样的方法使cnn能够利用视频中的时间信息，包括3D卷积[18]、光流[41]和动态图像[6]，这些方法已被证明在人类动作识别中特别有效。在这项工作中，我们使用动态图像表示，它计算一个固定大小的视频序列表示，通过学习排序机器的原始像素输入跨给定帧序列。参见第7节了解变种实现的细节。

3.2架构

(1)静态架构:我们的基础架构包括两个脸部子网和一个语音子网。人脸流和语音流都采用vgg - m架构[10]，在效率和性能之间实现了很好的平衡。每条流的特征通过串接融合，形成一个3072维的特征，然后分别用1024、512和2维的隐藏单元的三层完全连接层进行处理。每个子网络的详细信息可以在附录中找到。

(2)动态融合架构:基于将RGB图像与动作识别中的时间特征结合在一起的双流架构的有效性[6,41]，我们还探索了基础架构的一种变体，其中包括针对每个输入人脸的额外动态图像流。对每个人脸计算出的特征(RGB + dynamic)在每个流中的最终全连通层经过求和后进行组合。具体来说，给定增广输入集合x = {v, f1, f2, d1, d2}，其中d1和d2是动态人脸输入，我们计算表示

其中 $\oplus$ 表示连接，“ $\phi _{f}$ 表示RGB脸部子网络，” $\phi _{d}$ 表示动态图像脸部子网络，“ $\phi _{a}$ 表示音频子网络的操作，” $\phi _{2}$ 表示最上面的模态共享的全连接层。这两个静态脸流和两个动态脸流共享单独的权重，允许不同类型的脸输入得到相应的处理。

(3) N路分类体系结构:我们进一步扩展了该体系结构，以处理更具挑战性的任务，即开发一个能够解决N: 1识别问题的通用跨模态生物特征识别系统。该网络的输入由一个锚点语音段v、1个正面和N-1个负面组成。与前面一样，目标标签y $\in$ {1,2，…，N}表示正面位置，导致N向分类问题。

由于在我们的基础架构中使用了串联作为融合层，因此在推理期间无法调整面流的数量。这个缺点在很多CNN架构中都很常见，在这些架构中，很难在测试时改变输入的数量。解决这个问题的一种方法是将语音分别连接到每个面流，但是在这种情况下，每个面流将不知道其他流的存在。为了避免这个问题，我们在每个面流中添加了平均池化层，用于计算特定查询中所有面的平均面，从而使每个流能够感知上下文。我们将这个简单的概念称为查询池。

4. 数据集和训练

4.1 训练协议

所有的网络都使用随机梯度下降和批处理归一化进行端到端训练。我们使用minibatch大小为64,动量(0.9),权值衰减(5 e 4)和对数衰减学习速率(初始为10^-2,衰减到10^-8)。人脸和说话人识别的VGGFace和VoxCeleb模型分别使用预先训练好的权重对人脸和说话人识别进行初始化，而模态共享权重则根据高斯分布进行初始化。在处理人脸图像时，我们采用[42]在ImageNet分类任务中使用的数据增强技术(即随机裁剪、翻转、颜色偏移)。对于音频片段，我们通过在0.95到1.05之间选择一个随机的速度比来改变每个片段的速度。然后我们从火车时间的音频片段中随机提取一个3s片段。训练使用的是随机选择的1.2万个三胞胎(然后这个选择是固定的)。网络被训练为10个epoch，或者直到验证错误停止减少(以较早的为准)。