机器之心 | GMIS 2017大会邓力演讲:无监督学习的前沿与SPDG方法的优良性
视频地址:网易直播:直击机器智能峰会:看AI的过去现在与未来 http://live.163.com/room/134513.html
微软人工智能首席科学家邓力将分享《无监督学习的最新进展(Recent Advances in Unsupervised Learning)》。他认为,聚类方法、GAN 和变分自编码器(VAE)等传统无监督学习方法关注的重点是对输入数据的结构建模,而邓力则将探讨一种通过探索输出结构来进行无监督学习的方法以及为这种学习技术的新型成本函数问题所提出的新技术——随机原始-对偶梯度(SPDG:stochastic primal-dual gradient)。
有关研究的论文《一种利用序列输出统计的无监督学习方法(An Unsupervised Learning Method Exploiting Sequential Output Statistics)》已经在 arXiv 上发布:http://arxiv.org/abs/1702.07817,来听演讲之前,不妨先读读论文吧。
邓力今天跟大家介绍的一个主流的观点就是,以预测为中心的无监督的学习的范式,在这个范式里面我们能够直接完成机器学习的目标,无论是预测还是其他的任务。因为,我们能够直接把输入放到系统里面,然后利用无监督学习的机制(机器自己学习),而不需要人类给它一些标签、标识,利用这种范式就能做出一些非常优良的预测。
邓力老师表明监督学习,即给机器出输入、输出的两种数据,让它自己去学习,这种情况下它肯定有一个映射了,一对输入输出就像一个老师,老师教给这个机器如何进行识别或预测。这个范式非常地成功,在人类已经应用的比方说语言识别和机器翻译等等方面,都是用这种范式来做的。这种范式十分成功,都是用这种一对对映射的输入输出方式来训练整个系统。但是另一方面我们可以看到这种方法的成本还是很大的,我们需要给系统提供输入跟输出成对的数据。语音识别还好一点,但是其他的应用(比方说翻译、医疗的应用、图象识别、视频相关的任务和医学影像方面的任务),那么这种映射的输入输出成对的训练方法就太贵了,成本太高了。
邓力老师随后表明如果没有输入、没有一个学习材料它怎么学,所以说机器还得有一些学习材料,在这个范式里面要给机器提供一些米、一些学习材料,而又不需要人类提供那些非常成本昂贵的输入输出的映射,那怎么办呢?在这个世界上有充分的、多元的一些知识的来源,我们可以把它正和岛一个整合的系统,然后给系统、给机器,这是一个非常大胆的说法,怎么把世界上既有的多元化的信息分类到各个知识领域。
无监督学习分类器
语言模型能从分离的语料库中训练,这样就移除了成对数据(标注数据),也就不需要大量人力标注。
我们假设是这样做的,在这个实验里面我们使用语言模式的信息,既使是我们提供的序列作为输入给这个机器,它出来的输出还是不能给出一个明确的标签,输出只能给出一个非常泛泛的、很慢的人类语言的标签。所以我们用真实的语言,我们用语言来作为机器学习的指导。那么自然语言的数据可以是一个很困难的东西,但是我们可以单独拿出来使用,不把这个自然语言和任何的图象进行配对。为此我们就极大地降低了培训的成本、训练机器的成本。
该损失函数的问题:成本函数即使是线性模型也高度非凸性。可以最优化这个目标函数,求出最优参数,然后就可以求出我们所需要的模型。所以邓力老师跟大家来分享了一下这个成本函数,我们可以看到刚才已经讲过了这个目标函数,最开始它是不好的,但是最后迭代以后它会越来越好。我们可以看到从网站里面它跟你的数据训练是不同的,所以这是很容易建造的,但是却很难优化。在邓力老师的演讲中,非常重要的就是采用SPDG在没有标注的情况下学习如何做预测。那么我们一起来看看邓力老师如何将前面我们形式化的原始问题转化为极小极大对偶问题,并采用随机梯度下降来求得最优参数。(注:以下参考自邓力等人今年发表的论文:An Unsupervised Learning Method Exploiting Sequential Output Statistics)为了正确地将随机梯度下降应用到前面我们形式化问题所得到的损失函数,即最小化损失函数:
我们需要转换该损失函数以保证其随t的累和为对数损失。为此,我们首先需要引进凸共轭函数这一概念。给定一个凸函数 f(u),那么其凸共轭函数f * (ν)就定义为:
此外,也可以表示为:
若有函数 f(u) = − ln u,其中标量 u>0,那么其共轭函数为 f* (ν) = −1 − ln(−ν),其中标量v<0。因此根据上式定义,我们的函数和共轭函数有以下关系:
其中,sup由max替代,因为上确界是可以用最大化达到的。随后我们可以将上面的函数代入最开始的损失函数中,而根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题,因此求解原始问题就等价于求解以下极小极大问题(min-max problem):
其中
极小极大问题方程的最优解(θ,V)即称之为函数L(θ,V )的鞍点。一旦求得最优点 (θ, V),我们就能保留原始变量θ作为模型学到的参数。随机原始-对偶梯度方法(Stochastic primal-dual gradient method /SPDG)在上式极小极大问题等价优化式中,我们先关于θ极小化L(θ, V )和关于V极大化L(θ, V )以求得最优解 (θ,V*)。这样求得的参数θ即原始问题的最优化解。我们更进一步注意到原始问题的等价式极小极大问题现在是分量函数Lt(θ, V ), t = 1, . . . , T从1到T的累和。
因此,关于θ的极小化和关于V的的极大化可以由随机梯度下降解出,即L(θ, V ) 关于原始变量θ执行随机梯度下降、L(θ, V ) 关于对偶变量V执行随机梯度下降。这样重复迭代的方式,即随机原始-对偶梯度(SPDG)方法。为了计算随机梯度,我们先将L(θ, V )的全批量梯度表示为:
为了计算随机梯度,我们将每个样本
最后,邓力老师总结了本场演讲的精要信息点:
最后邓力老师表明,无监督学习比监督学习更有趣,但是也更困难。我们可以使用更多的一些数据来进行学习,比如说像我刚才所说的 SPDG 方法,该方法不需要进行标记,但它可以直接进行学习来听声音的识别或者说做一些翻译。这样的一个线性的方式,我们也需要很多的发明来使无监督学习更加地有效。
邓力说:「其实我们人类还是很有希望的,因为在未来有越来越多的技术以后,人类就可以有更多的价值。」他认为虽然监督学习很有希望,但未来的趋势还是无监督学习。