CVPR2020 Interpreting the Latent Space of GANs for Semantic Face Editing

论文下载地址: https://openaccess.thecvf.com/content_CVPR_2020/papers/Shen_Interpreting_the_Latent_Space_of_GANs_for_Semantic_Face_Editing_CVPR_2020_paper.pdf

代码：https://github.com/genforce/interfacegan

本文的PAMI版本：https://arxiv.org/pdf/2005.09635.pdf
摘要：
Despite the recent advance of Generative Adversarial Networks (GANs) in high-fidelity image synthesis, there lacks enough understanding of how GANs are able to map a latent code sampled from a random distribution to a photo-realistic image. Previous work assumes the latent space learned by GANs follows a distributed representation but observes the vector arithmetic phenomenon. In this work, we propose a novel framework, called InterFaceGAN, for semantic face editing by interpreting the latent semantics learned by GANs. In this framework, we conduct a detailed study on how different semantics are encoded in the latent space of GANs for face synthesis. We find that the latent code of well-trained generative models actually learns a disentangled representation after linear transformations. We explore the disentanglement between various semantics and manage to decouple some entangled semantics with subspace projection, leading to more precise control of facial attributes. Besides manipulating gender, age, expres-sion, and the presence of eyeglasses, we can even vary the face pose as well as fix the artifacts accidentally generated by GAN models. The proposed method is further applied to achieve real image manipulation when combined with GAN inversion methods or some encoder-involved models. Extensive results suggest that learning to synthesize faces spontaneously brings a disentangled and controllable facial attribute representation.

大多研究对抗生成网络(GAN)的文献，都着眼提升生成图片的质量，很少的文献去研究图片中的语义信息是如何产生以及如何在隐藏空间（latent space）中组织的，GAN学习到的特征是什么，。这篇论文，就着重的研究了隐藏空间和图片语义信息空间之间的联系，并利用这样的联系，来修改隐藏空间的编码（latent code），从而达到对生成的图片进行图像编辑的目的。文章以训练好的人脸生成的GAN模型，以及人脸属性编辑任务为背景，对于图片中的属性语义信息，与用以生成图片的编码之间的关系，进行了探索。

对于一个训练好的GAN模型，那么有GAN的映射，g：Z->X，其中Z是隐藏空间，X是生成的图片空间。对于每张图片x∈X，都包含着具体的语义信息。那么，引入新的函数，文中称为的语义分数函数，fs:X->S，其中S是m维的语义空间，对应m个语义（属性）。那么，这样就可以建立从隐藏空间，到语义空间之间的联系：s=fs(g(z))。

文章引入了两个性质：

性质1大致的意思是，给定一个法向量n，那么与n向量积为0的向量，组成了一个超平面（这个超平面与该法向量垂直）。对于任意的z向量，如果它与法向量n的向量积满足nz>0，那么这些z向量位于（由n确定的）超平面的同一边。

性质2的大致意思是，向量z与由法向量n确定的超平面之间的距离，大概率在某一范围之内，文中计算的是距离大于5个单位的概率为1e-6，也就是基本上z与超平面的距离不超过5。

回到文中研究的内容，对于单个语义信息而言，之前的很多文献在对于两个编码z1和z2进行插值的时候发现，图片的内容会缓慢的发生变化，根据这个现象，本文做出第一个假设，认为对于任何一个二值语义（比如性别的语义，只有男和女两种取值，暂时不提新型人类啊），那么在隐藏空间存在一个超平面作为这个语义的分割边界。那么，在这个边界的一边改变编码的数值，语义会保持相似；穿过分割边界，那么语义会发生反转。这样就类似于性质1中任意的向量z与某一超平面的关系，因此，找到一个具体的语义函数为

f(g(z))=λd(n,z)，其中d(n,z)=nz，λ>0是一个标量，测度语义与距离变化之间的快慢。

然后，讲单一属性的假设推广到多个属性，那么有

这样，多属性的分布，是一个多变量的正态分布，只有各个属性的法向量n_i互相正交，各个属性才会互相独立（这一般也是不可能的）；因此n_i n_j能够度量属性i和属性j之间的相互依赖程度。

有了上述，对于语义信息与隐藏空间的关系的假设，本文自然而然的引出了，对于单个属性进行编辑操作的方法，将图片对应的编码修改为zedit = z+αn，简单的解释就是，用原来的编码，加上在分割平面的法向量方向上的移动，其实就是更接近分割平面，穿过分割平面或者远离分割平面。但是，这样直接修改，如果不同属性存在依赖关系的话（即分割平面的法向量不正交），那么修改一个属性，会导致其他属性的变化，因而需要其他方法，来尽可能保持其他属性不变。由此，本文引出了多属性情况下，条件操作方法，以由两个超平面法向量n1和n2定义的两个属性为例，在编辑n1定义的属性时候，更改编码的方向为n1-(n1n2)n2；简单来说就是找到一个与n1还有夹角，但是与n2垂直的方向，以此类推到多个属性。

在有了上述编辑单个属性的方法的情况下，最后一个问题就是，当给定一张人脸的时候，如何获得其对应的编码。文中并没有具体研究这个问题，而是给出了两类解决该问题的文献，大致的办法就是用不同的（两类）方法，推断出图片对应的编码，然后再修改编码，进而用其对应的GAN生成修改后对应的图片。这样，就可以验证编码中是否真的存在文中讨论的语义信息，以及它们编码属性的方式是如何的。

整篇文章的一个基础的假设就是，对于二元（二值）的属性而言，存在一个超平面，对于属性进行分割。其实，这样的假设就很类似与二分类任务：找到可以分割二类的划分的超平面。于是，本文用二分类中最经典的算法SVM验证了这个假设的正确性。

以上述的基础，本文接下来的实验部分，实现了单个属性的编辑，以及多个属性的条件编辑（也就是编辑一个属性，保证其他属性不发生变化）。除此之外，文中实验探究了隐藏空间编码之间相关性与属性实际相关性的反应，也探究了距离分割平面超过阈值之后，属性编辑的变化。文中用到的预训练的模型是StyleGAN和PGGAN。

最后编辑于：2021.01.11 15:01:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342

CVPR2020 Interpreting the Latent Space of GANs for Semantic Face Editing

推荐阅读更多精彩内容