综述 An Introduction to Image Synthesis with Generative Adversarial Nets

题目

An Introduction to Image Synthesis with Generative Adversarial Nets

摘要

近年来，生成性对抗网络（GAN）的研究得到了迅猛的发展。GAN提出于2014年，已经应用于计算机视觉和自然语言处理等各种应用，并取得了令人印象深刻的性能。在GAN的众多应用中，图像合成是最受关注的一种，这方面的研究已经证明了GAN在图像合成中的巨大潜力。本文给出了图像合成中使用的方法的分类，回顾了文本到图像合成和图像到图像翻译的不同模型，并讨论了一些评估指标以及GAN在图像合成中可能的未来研究方向。

引言

随着深层学习的最新进展，机器学习算法已经发展到能够在某些任务中竞争甚至击败人类的程度，例如ImageNet[1]上的图像分类、Go[2]和Texas Hold'em poker[3]。然而，我们仍然不能断定那些算法具有真正的“智能”，因为知道如何做某事并不一定意味着理解某事，而且对于真正智能的代理人来说，理解其任务是至关重要的。著名的物理学家理查德·费曼说：“我不能创造什么，我不能理解。”为了在机器学习的情况下使用这个引号，我们可以说，为了让机器理解它们的输入数据，它们需要学习创建数据。最有希望的方法是使用生成模型，该模型学习发现数据的本质并找到最佳分布来表示它。此外，通过学习生成模型，我们甚至可以绘制不在训练集中但遵循相同分布的样本。

作为一种新的生成模型框架，2014年提出的生成对抗网[4]能够生成比以往的生成模型更好的合成图像，自此成为最热门的研究领域之一。生成对抗网络包括两个神经网络，一个生成器和一个鉴别器，其中生成器试图产生欺骗鉴别器的真实样本，而鉴别器试图区分真实样本和生成的样本。GAN的研究主要有两条主线。一个是试图缓解GAN[5][6][7][8][9][10]的不稳定性和模式崩溃问题的理论线索，或者从不同的角度对GAN[5][6][7][9][10]进行公式化，如信息论[11]和基于能量的模型[12]。另一条主线是GAN在计算机视觉（CV）[5]、自然语言处理（NLP）[13]等领域的应用。

Goodfellow在NIPS 2016中给出了一个关于GAN[14]的伟大教程，其中他描述了生成模型的重要性，解释了GAN如何工作，将GAN与其他生成模型进行了比较，并讨论了GAN中的前沿研究课题。此外，最近有一篇关于GAN[15]的评论文章回顾了几种GAN体系结构和训练技术，并介绍了GAN的一些应用。然而，这两篇论文都属于一般范围，没有具体应用的细节。在本文中，我们特别关注图像合成，其目标是生成图像，因为它是迄今为止GAN应用最多的研究领域。除了图像合成，GAN在计算机视觉中还有许多其他的应用，如画中图像[16]、图像字幕[17][18][19]、对象检测[20]和语义分割[21]。

在自然语言处理中应用GaN的研究也是一个不断发展的趋势，如文本建模[13][22][23]、对话生成[24]、问答[25]和神经机器翻译[26]。然而，在NLP任务中训练GAN更加困难，并且需要更多的技术[13]，这也使得GAN成为一个具有挑战性但令人感兴趣的研究领域。

本文的主要目的是综述GAN在图像合成中应用的各种方法，并指出现有方法的优缺点。将图像合成的主要方法分为直接法、分层法和迭代法。除了这些最常用的方法，我们还将简要提及其他方法。然后，我们详细讨论了图像合成中最重要的两个任务，即文本到图像合成和图像到图像翻译。我们还讨论了为什么GAN在某些任务中表现如此好的可能原因以及它在人工智能目标中的作用。本文的目的在于为那些想将GAN应用到他们的问题中的人提供一个简单的指导方针，并帮助进一步研究GAN。

本文的其余部分组织如下。在第二节中，我们首先回顾了GAN的一些核心概念，以及一些变体和培训问题。在第三节中，我们介绍了三种主要的图像合成方法和一些其他的图像合成方法。在第四节中，我们讨论了文本到图像合成的几种方法和一些可能的研究方向。在第5节中，我们首先介绍了用于图像到图像的翻译的有监督和无监督的方法，然后转向更具体的应用，如人脸编辑、视频预测和图像超分辨率。在第6节中，我们回顾了用于合成图像的一些评估度量，而在第7节中，我们讨论了鉴别器作为学习损失函数的作用。结论在第8节给出。

2 GAN 准备工作

在本节中，我们回顾了生成对抗网络（GAN）的一些核心概念和一些改进。

由θ参数化的生成模型G将随机噪声z作为输入，输出样本 $G(z;θ)$ ，因此输出可以看作是从分布 $G(z;θ)\sim p_g$ 中抽取的样本。同时，我们从 $p_{data}$ 数据中提取了大量的训练数据 X，并且生成模型G的训练目标是使用 $p_g$ 来近似 $p_{data}$ 。

General structure.png

生成对抗网络(GAN)[4]由两个独立的神经网络组成：一个产生器G，它接受随机噪声向量z，并输出合成数据 $G(z)$ ；一个鉴别器D，它接受输入 $x$ 或 $G(z)$ 并输出概率 $D(x)$ 或 $D(G(z))$ ，以指示它是合成的还是来自真实的数据分布，如图1所示。发生器和鉴别器都可以是任意的神经网络。首先GAN[4]使用完全连接的层作为其构建块。随后，DCGAN[5]提出了使用全卷积神经网络来获得更好的性能，从那时起，卷积层和置换卷积层已经成为许多GAN模型的核心部件。有关卷积（转置）算法的更多细节，请参阅此报告[27]。

训练产生器和鉴别器的原始方法是形成一个两人最小最大博弈，其中产生器G试图产生真实的数据欺骗鉴别器，而鉴别器D试图区分真实数据和合成数据[4]。待优化的值函数如等式1所示，其中 $p_{data}(x)$ 表示真实数据分布， $p_z(z)$ 表示噪声分布。
$\min_G \max_D V(D,G)=\Bbb{E}_{x\sim p_{data}(x)}[\log D(x)]+\Bbb{E}_{z\sim p_{z}(z)}[\log D(z)]$

然而，当鉴别器训练得比发生器好得多， $D$ 可以以接近1的置信度拒绝来自 $G$ 的样本，因此损失 $\log(1-D(G(z))$ 饱和，G不能从零食中学到任何东西。为了防止这种情况，我们可以训练 $G$ 来使 $log(1-D(G(z))$ 最小化，而不是训练G来使 $\log D(G(z))$ [4]最大化。虽然新的G损失函数给出了与原始梯度函数不同的梯度尺度，但它仍然提供了相同的梯度方向，并且不饱和。

2.1 有条件GAN Conditional GAN

在原始GAN中，我们无法控制要生成什么，因为输出仅依赖于随机噪声。然而，我们可以向随机噪声z中添加一个条件输入c，使得生成的图像由 $G(c,z)$ [28]定义。通常，条件输入向量c与噪声向量z相连，并且所得到的向量像在原始GAN中一样被放入生成器。此外，我们可以在c和z上执行其他的数据增强，如[29]所示。条件输入c的含义是任意的，例如，它可以是图像的类别、对象[28]的属性或者我们想要生成[30][31]的图像的文本描述的嵌入。

[30] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee,“Generative adversarial text to image synthesis,” arXiv preprint arXiv:1605.05396, 2016.

[31] S. E. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee,“Learning what and where to draw,” in Advances in Neural Information Processing Systems, 2016, pp. 217–225.

2.2 带有辅助分类器的GAN GAN with Auxiliary Classifier

为了提供更多的辅助信息，并允许半监督学习，可以向鉴别器添加一个附加的特定于任务的辅助分类器，从而在原始任务和附加任务[32][6]上优化模型。这种方法的体系结构如图2所示，其中C是辅助分类器。添加辅助分类器允许我们使用预先训练的模型(例如，在ImageNet上训练的图像分类器)，并且在AC-GAN[33]中的实验表明，这种方法可以帮助生成更清晰的图像以及减轻模式崩溃问题。使用辅助分类器还可以帮助诸如文本到图像合成[34]和图像到图像翻译[35]之类的应用。

GAN with Auxiliary Classifier.png

2.3 有编码器的GAN GAN with Encoder

虽然GAN可以将噪声向量z变换为合成数据样本 $G(z)$ ，但它不允许逆变换。如果将噪声分布作为数据样本的潜在特征空间，则GAN缺乏将数据样本x映射到潜在特征z的能力。为了允许这种映射，两个并发工作BiGAN[36]和ALI[37]建议在原始GAN框架中添加编码器 $E$ ，如图3所示。设 $\Omega_x$ 为数据空间， $\Omega_z$ 为潜特征空间，编码器E以 $x\in \Omega_x$ 为输入，产生特征向量 $E(x)\in \Omega_z$ 为输出。将鉴别器D修改为同时以数据样本和特征向量作为输入来计算 $P(Y|x,z)$ ，其中 $Y=1$ 表示样本为真， $Y=0$ 表示数据由 $G$ 生成.

Architecture of BiGAN/ALI.png

最后编辑于：2018.12.21 13:51:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,312评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,578评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,337评论 0赞 333
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,134评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,161评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,303评论 1赞 280
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,761评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,421评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,609评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,450评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,504评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,194评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,760评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,836评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,066评论 1赞 257
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,612评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,178评论 2赞 341

综述 An Introduction to Image Synthesis with Generative Adversarial Nets

题目

摘要

引言

2 GAN 准备工作

2.1 有条件GAN Conditional GAN

2.2 带有辅助分类器的GAN GAN with Auxiliary Classifier

2.3 有编码器的GAN GAN with Encoder

推荐阅读更多精彩内容