介绍
本文关注的问题是无监督学习。 主要来说,学习概率分布是什么意思? 对此的经典答案是学习概率密度。 通常,这是通过定义一个参数密度系列并找到使我们的数据的似然性最大的一个来完成的:如果我们有真实的数据示例,我们将解决问题
如果实际数据分布允许密度,并且是参数化密度的分布,那么,渐近地,这等于使Kullback-Leibler散度KL最小。
为此,我们需要模型密度Pθ存在。 在处理由低维流形支持的分布的相当普遍的情况下,情况并非如此。 这样,模型流形和真实分布的支撑就不可能有不可忽略的交点,这意味着KL距离没有定义(或简单地是无限的)。
典型的补救措施是在模型分布中添加一个噪声项。 这就是经典机器学习文献中描述的几乎所有生成模型都包含噪声分量的原因。 在最简单的情况下,为了覆盖所有示例,我们假定带宽较高的高斯噪声。 例如,众所周知,在图像生成模型的情况下,这种噪声会降低样本的质量并使样本模糊。 例如,我们可以在最近的论文中看到,当像素已被规范化在范围内时,当对生成的图像中的每个像素进行最大化似然时,添加到模型的噪声的最佳标准偏差约为0.1。 [0; 1]。 这是非常高的噪声,以至于当论文报告其模型样本时,他们没有添加噪声项来报告似然数。 换句话说,添加的噪声项对于该问题显然是不正确的,但是使最大似然法起作用是必需的。
我们可以定义具有固定分布的随机变量Z并将其传递给参数函数gθ:ZX(通常是某种神经网络) 可以按照一定的分布Pθ直接生成样本,而不是估计可能不存在的的密度。 通过改变θ,我们可以改变该分布并使它接近实际数据分布。 这有两种用法。 首先,与密度不同,此方法可以表示局限于低维多样性的分布。 其次,容易生成样本的能力通常比知道密度的数值有用(例如,在考虑给定输入图像的情况下,当考虑输出图像的条件分布时,在图像超分辨率或语义分割中)。 通常,在给定任意高维密度的情况下,很难生成样本。
变体自动编码器(VAE)和生成对抗网络(GAN)是这种方法的众所周知的示例。 由于VAE专注于示例的近似可能性,因此它们共享标准模型的局限性,并且需要摆弄额外的噪声项。 GAN在目标函数的定义上提供了更大的灵活性,包括Jensen-Shannon ,all f-divergences以及一些奇异的组合。 另一方面,出于GAN中理论研究的原因,训练GAN众所周知,它微妙且不稳定。
在本文中,我们将注意力集中在测量模型分布和实际分布有多接近或等效地定义距离或散度的各种方法上。 这种距离之间最根本的区别是它们对概率分布序列收敛的影响。 当且仅当存在一个分布 使得趋于零时,分布序列才会收敛,这取决于距离ρ的精确定义。
为了优化参数θ,当然希望定义模型分布时能使映射连续。连续性是指当一系列参数收敛到θ时,分布也收敛到。 但是,必须记住,分布收敛的概念取决于我们计算分布之间距离的方式。 该距离越弱,则定义从θ空间到空间的连续映射就越容易,因为分布的收敛越容易。 这也是我们关心映射的主要原因! 连续的如下。 如果ρ是我们在两个分布之间的距离的概念,则我们希望有一个损失函数是连续的,这等效于当使用分布之间的距离ρ时,映射是连续的。
本文的贡献是:
• 我们提供了与在学习分布中使用的流行概率距离和散度相比,Earth Mover(EM)距离的行为的综合理论分析。
• 我们定义了一种称为Wasserstein-GAN的GAN形式,该形式将EM距离的合理有效近似最小化,并且从理论上讲,相应的优化问题是合理的。
• 我们经验证明WGAN解决了GAN的主要培训问题。 特别地,训练WGAN不需要在鉴别器和生成器的训练中保持仔细的平衡,也不需要仔细设计网络体系结构。 大大减少了GAN中典型的模式下降现象。
WGAN最引人注目的实际好处之一是能够通过训练判别器达到最优来连续估计EM距离。 绘制这些学习曲线不仅对调试和超参数搜索很有用,而且与观察到的样本质量也具有显著的相关性。
不同的距离
现在我们介绍一下符号。 令为紧凑度量集(例如图像的空间),令表示的所有Borel子集的集合。 令表示在上定义的概率测度的空间。 现在我们可以定义两个分布之间的基本距离和散度:
- The Total Variation(TV) distance
- The Kullback-Leibler(KL) divergence
相对于在上定义的同一度量µ,假定和都是绝对连续的,因此可以使用密度。众所周知,当存在点时,KL散度是非对称的,并且可能是无限大的。 - The Jensen-Shannon(JS) divergence
其中等于。由于我们可以选择,所以这种散度是对称的,并且始终是定义好的。 - The Earth-Mover(EM) distance or Wasserstein-1
其中表示边缘分别为和的所有联合分布的集合。直观地,表示从x到y传输多少才能将分布转换为分布。EM距离就是优化转换的成本。
以下示例说明了概率分布的简单序列在EM距离下如何收敛而在上面定义的其他距离和散度下没有收敛。
示例1(学习平行线)。
令Z〜U [0; 1]单位间隔上的均匀分布。 令为的分布(x轴为0,y轴为随机变量Z),在通过原点的垂直直线上均匀。 现在让gθ(z)=(θ; z),θ为单个实参。很容易看到这种情况:
当,序列在EM距离下收敛到,但在JS,KL,反向KL或TV发散下根本不收敛。
下图说明了EM和JS距离的情况。
示例1给出了一个案例,其中我们可以通过对EM距离进行梯度下降来学习低维流形上的概率分布。 这不能用其他距离和散度来完成,因为所得的损失函数甚至不是连续的。 尽管此简单示例的特征是具有不连续支撑的分布,但是当支撑在一组零度量中包含非空交集时,得出相同的结论。 当两个低维流形在一般位置相交时,情况就是这样。
由于Wasserstein距离远小于JS距离,因此我们现在可以假设
定理1
令为上的固定分布。令Z为另一空间Z上的随机变量(例如高斯)。令是一个函数,它将以表示,其中z为第一个坐标,θ为第二个坐标。 令表示的分布。 然后:
- 1.如果g在θ中是连续的,则也是如此。
- 2.如果g是局部Lipschitz并且满足正则性假设,则在任何地方都是连续的,并且几乎在任何地方都是可微的。
- 3.对于Jensen-Shannon发散和所有KL,陈述1-2为假。
推论1
令是由θ参数化的任何前馈神经网络,并且p(z)在z之前具有先验,使得(例如,高斯,均匀等),则满足假设1 因此在任何地方都是连续的,几乎在任何地方都是可微的。
所有这些都表明,对于我们的问题,EM至少比Jensen-Shannon散度更有意义。 以下定理描述了由这些距离和差异导致的拓扑的相对强度,其中KL最强,其次是JS和TV,而EM最弱。
定理2
令作为压缩空间上的分布,而为x上分布的序列。然后让:
1.以下等式等价:
2.以下语句等效:
3.表示1中的语句
- 1中的描述暗含2中的描述
这突显了以下事实:在学习由低维流形支持的分布时,KL,JS和TV距离不是明智的成本函数。
但是,在该设置中,EM距离是明智的。 显然,这将引导我们进入下一部分,在该部分我们将介绍优化EM距离的实用方法 。
Wasserstein GAN
定理2指出了一个事实,即优化后的可能比具有更好的属性。 并且,(1)中的极难处理。另一方面,Kantorovich-Rubinstein duality告诉我们 :
其中上采样所有的1-Lipschitz函数。如果将替换为(考虑常数K的K-Lipschitz),然后最终得到。因此,如果我们有一个参数化的函数群,他们对于某些K都是K-Lipschitz,我们可以考虑解决这个问题:
定理3
设是任意分布,是的分布,其中Z为密度p的随机变量,而为满足假设1的函数。那么对于这个问题有一个解
我们有
当两个术语都定义明确。
现在出现的问题是寻找解决方程(2)中最大化问题的函数f。 粗略地估算一下,我们可以做的就是训练一个参数神经网络,其权重位于紧凑空间W中,然后通过反向传播,就像我们做的那样 典型的GAN。 请注意,W是紧凑的事实意味着,对于仅依赖于W而不取决于单个权重的某些K,所有函数均为K-Lipschitz,因此近似于(2)直至不相关的缩放因子和' 评论家'的能量。 为了使参数位于紧凑的空间中,我们可以做的简单的事情是在每次梯度更新后将权重强加到固定的框上(例如)。 Wasserstein生成对抗网络(WGAN)过程在算法1中进行了描述。
权重削减是强制执行Lipschitz约束的一种很糟糕的方法。 如果裁剪参数很大,那么任何权重都可能需要很长时间才能达到其极限,因此很难训练评论者,直到达到最优为止。 如果裁剪较小,则当层数很大或不使用批归一化时(例如在RNN中),很容易导致梯度消失。 我们尝试了几乎没有差异的简单变体(例如将权重投射到球体上),并且由于其简单性和良好的性能,我们坚持使用权重裁剪。
EM距离是连续且可微的意味着我们可以(并且应该)训练评论家,直至达到最佳状态。 论点很简单,我们对评论家的训练越多,我们得到的Wasserstein的梯度就越可靠,这实际上是因为Wasserstein几乎在任何地方都可以区分。
对于JS,随着判别器变得更好,梯度变得更可靠,但由于JS局部饱和并且我们得到消失的梯度,因此真实梯度为0,如本文的图1的定理4所示。 在下图中,我们显示了这一概念的证明,其中我们训练了GAN鉴别器和WGAN评论家,直到达到最优。鉴别器很快就会学会区分真假,并且按预期没有提供可靠的渐变信息。但是,评论家无法饱和,而是会收敛到一个线性函数,该函数在任何地方都具有非常清晰的渐变。 我们限制权重的事实限制了函数在空间的不同部分最多可能呈线性增长的可能性,从而迫使最佳评论家必须具有这种行为。也许更重要的是,我们可以训练评论家直到达到最优,这一事实使得我们无法在崩溃时崩溃。 这是由于这样的事实,模式崩溃源于以下事实:固定标识符的最佳生成器是标识符分配最高值的点的增量之和,如[4]所观察到并在[11]中突出显示。
在以下部分中,我们将展示新算法的实际好处,并且将其行为与传统GAN的行为进行深入比较。
实验结果
我们使用Wasserstein-GAN算法进行图像生成实验,结果表明,与标准GAN中使用的配方相比,使用它具有明显的实际好处。
我们声称有两个主要好处:
• 与发生器的收敛性和样品质量相关的有意义的损耗指标
• 优化过程的稳定性得到改善
实验步骤
我们进行图像生成实验。 要学习的目标分布是LSUN卧室数据集{室内卧室自然图像的集合。
我们的基线比较是DCGAN,这是一种具有卷积架构的GAN,使用-log D技巧通过标准GAN程序进行训练。 生成的样本是尺寸为64x64像素的3通道图像。 我们在所有实验中均使用算法1中指定的超参数。
在训练的不同阶段的训练曲线和样本。 我们可以看到,较低的误差与较好的样品质量之间存在明显的相关性。 左上方:生成器是一个MLP,具有4个隐藏层,每层512个单元。 损失随着训练的进行和样品质量的提高而不断减少。 右上:生成器是标准的DCGAN。 损耗迅速降低,样品质量也提高。 在上面的两个图中,评论家都是没有S型曲线的DCGAN,因此可以对损失进行比较。
下半部分:生成器和鉴别器都是学习率很高的MLP(因此训练失败)。 损耗是恒定的,样本也是恒定的。 训练曲线通过中值滤波器以进行可视化。
有意义的损耗度量
因为WGAN算法尝试在每次生成器更新之前(算法1中的第10行)相对较好地训练评论家f(算法1中的第2 {8行),所以此时的损耗函数是EM距离的估计, 直至与我们约束f的Lipschitz常数的方式相关的常数因子。
我们的第一个实验说明了此估算值与生成的样本质量之间的相关性。 除了卷积DCGAN架构外,我们还进行了实验,用具有512个隐藏单元的4层ReLU-MLP替换了生成器或生成器和评论家。
图3绘制了所有三种架构在WGAN训练期间EM距离的WGAN估计值的演变。 这些图清楚地表明,这些曲线与生成的样本的视觉质量很好地相关。
据我们所知,这是GAN文献中首次显示这种性质,其中GAN的丢失显示了收敛性质。 当在对抗网络中进行研究时,此属性非常有用,因为不需要盯着生成的样本来找出失效模式并获得有关哪些模型比其他模型更好的信息。
但是,我们并不声称这是一种定量评估生成模型的新方法。 取决于评论者架构的恒定比例因子意味着很难将模型与不同评论家进行比较。 更重要的是,实际上评论家没有无限的能力,这使得我们很难知道我们的估计实际上与EM距离有多接近。 话虽如此,我们已经成功地使用了损失指标来反复验证我们的实验而没有失败,并且我们认为这是对训练以前没有这种功能的GAN的巨大改进。
相反,下图绘制了GAN训练期间JS距离的GAN估计值的演变。 更准确地说,在GAN训练过程中,对鉴别器进行训练以使其最大化:
在图中绘制的是的量,这是JS距离的下限。
该数量显然比样品质量差。 另请注意,JS估算值通常保持恒定或上升而不是下降。 实际上,它经常保持非常接近log 2≈0.69,这是JS距离的最大值。 换句话说,JS距离已饱和,鉴别器的损失为零,所生成的样本在某些情况下是有意义的(DCGAN生成器,右上图),而在其他情况下则崩溃为单个无意义的图像[4]。 最后一种现象已在[1]中进行了理论解释,并在[11]中进行了重点介绍。
当使用− log D技巧[4]时,鉴别器损耗和发生器损耗是不同的。 附录E中的图8报告了用于GAN训练的相同图,但是使用生成器损耗而不是鉴别器损耗。 这不会改变结论。
最后,作为一个消极的结果,我们报告说,当有人使用评论家的基于动量的优化器(例如Adam(β1> 0),或者有人使用较高的学习率)时,WGAN训练变得不稳定。 由于评论家的损失是不稳定的,因此基于动量的方法似乎表现较差。 我们将动量确定为潜在原因,因为随着损耗增加并且样本变差,Adam阶跃与梯度之间的余弦通常变为负值。 余弦为负的唯一位置是在这些不稳定的情况下。 因此,我们改用了RMSProp ,即使在非常不稳定的问题上,RMSProp的性能也很好。
稳定性提升
WGAN的好处之一是,它使我们能够训练评论家,使其达到最佳状态。 当评论家被训练到完成时,它只会给生成器带来损失,我们可以像其他任何神经网络一样训练它。 这告诉我们,我们不再需要适当平衡生成器和鉴别器的容量。 评论家越好,我们用来训练生成器的渐变质量就越高。
我们观察到,当人们改变生成器的架构选择时,WGAN比GAN更加健壮。 我们通过在三种生成器体系结构上运行实验来说明这一点:
(1)卷积DCGAN生成器
(2)没有批量归一化并且具有恒定数量的滤波器的卷积DCGAN生成器
(3)4层ReLU -具有512个隐藏单位的MLP。
已知后两个在GAN上的表现非常差。 我们为WGAN评论家或GAN区分者保留卷积DCGAN架构。
下面图片显示了使用WGAN和GAN算法为这三种架构生成的样本。
在任何实验中,我们都没有看到WGAN算法模式崩溃的证据。
相关工作
有大量的工作叫做所谓的“整体概率指标”(IPM)。 给定一组从到的函数,我们可以定义:
作为积分概率 容易证明,如果对于每个我们都有(例如我们将考虑的所有示例),则是非负的,满足三角不等式,并且是对称的。 因此,是的伪度量。
虽然IPM似乎具有相似的公式,但是我们将看到不同的功能类别可能会导致根本不同的指标。
通过Kantorovich-Rubinsteinduality ,我们知道当是1-Lipschitz函数的集合时,。 此外,如果F是K-Lipschitz函数的集合,我们得到。
当是在-1和1之间(或在-1和1之间的所有连续函数)的所有可测量函数的集合时,我们重新得到的总变化距离。这已经告诉我们,从1-Lipschitz函数到1-Bounded函数将极大地改变空间的拓扑,并且将的正则性作为损失函数。
Engergy-based GANs(EBGAN)可以看作是TV distance的生成方法。连接的核心是,鉴别器将发挥f最大化方程式(4)的作用,而对于某些常数m而言,它的唯一限制是在0和m之间。 这将获得与被限制在-1和1之间直至与优化无关的恒定缩放因子相同的行为。 因此,当鉴别器接近最优时,发生器的成本将接近TV diatance 。
由于TV distance 显示出与JS相同的规律性,因此可以看出,EBGAN会遭受与经典GAN相同的问题,即无法训练区分器直至最优,从而将自身限制在非常不完美的梯度上。最大平均差异(MMD)是当时,与给定内核相关的某些希尔伯特空间(RKHS)的整数概率度量的一种特殊情况。正如在MMD上证明的那样,我们知道MMD是一个适当的度量,而不仅仅是内核通用的伪度量。 对于上m的标准化Lebesgue测度,在的特定情况下,我们知道将包含在中,因此,因此作为损耗函数的MMD距离的规律性至少会与TV distance一样差。尽管如此,这是一个非常极端的情况,因为我们需要一个非常强大的内核来近似整个。 但是,最近证明,即使是高斯内核也能够检测到微小的噪声模式。 这表明一个事实,尤其是对于低带宽内核,该距离可能接近饱和状态,类似于总变化或JS。 显然,并非每个内核都如此,弄清楚如何以及哪些不同的MMD更接近Wasserstein或TV distance是一个有趣的研究主题。
MMD的主要方面是,通过内核技巧,无需训练单独的网络即可最大化RKHS球的方程式(4)。 但是,这具有以下缺点:评估MMD距离的计算成本与用于估计(4)中期望值的样本数量成平方增长。 最后一点使MMD的可扩展性受到限制,并且有时由于它而不适用于许多现实生活中的应用程序。 对于MMD,存在线性计算成本的估计,这在很多情况下使MMD非常有用,但它们的样本复杂性也更差。-
生成力矩匹配网络(GMMN)是MMD的生成副本。 通过反向方程式(4)的核化公式,他们直接优化了(当如前一项所述时的IPM)。 如上所述,其优点是不需要单独的网络来近似最大化方程式(4)。 但是,GMMNs的适用性有限。 对于不成功的部分解释是二次成本随样本数量和低带宽内核逐渐消失的数量而变化。 此外,实践中使用的某些内核可能不适合捕获高维样本空间(例如自然图像)中非常复杂的距离。要使典型的高斯MMD检验可靠(因为统计检验的功效接近1),我们就需要样本数与维数线性增长。 由于MMD的计算成本随着用于估计方程式(4)的批中样本数量的增加而平方增长,因此,使可靠的估计器的成本随着维数的数量呈平方增长,这使得它不适用于高维问题。 实际上,对于64x64图像的标准对象,我们需要的最小批处理尺寸至少为4096,并且每次迭代的总成本为 40962,使用64的标准批量时,比GAN迭代多5个数量级。
话虽如此,从我们将GAN的经验样本复杂度与MMD的理论样本复杂度进行比较的意义上来说,这些数字对于MMD可能有点不公平。 但是,在原始GMMN论文中,他们的确使用了大小为1000的小批量,比标准的32或64大得多(即使这会导致二次计算成本)。 虽然存在具有线性计算成本随样本数量变化的函数的估计[5],但它们的样本复杂性更差,并且据我们所知,它们尚未应用于生成环境中,例如GMMN。
在另一项伟大的研究线上,Wasserstein训练受限的玻尔兹曼机器的最新工作探索了Wasserstein距离在离散空间受限玻尔兹曼机器学习中的应用。 乍一看,动机似乎大不相同,因为流形设置仅限于连续空间,而在有限的离散空间中,弱拓扑和强拓扑(分别为W和JS)重合。 但是,最终,在交流方面,我们的动机更多。 我们俩都希望通过利用基础空间的几何形状来比较分布,而Wasserstein允许我们做到这一点。
最后,论文随机优化用于大规模最优运输的工作展示了用于计算不同分布之间的Wasserstein距离的新算法。 我们认为这个方向非常重要,并且可能会导致评估生成模型的新方法。
我们介绍了一种我们认为WGAN的算法,它是传统GAN训练的替代方法。 在这个新模型中,我们证明了我们可以提高学习的稳定性,摆脱模式崩溃等问题,并提供有意义的学习曲线,这些曲线对于调试和超参数搜索非常有用。 此外,我们证明了相应的优化问题是合理的,并提供了广泛的理论工作,强调了与分布之间其他距离的深层联系。