本文来自“流浪汉” (@ZhangLumin)
Facebook AI Lab 于今年下半年正式建成,其网络覆盖纽约、伦敦以及 Facebook 加州门罗帕克总部三地。AI Lab 旨在投入研发精力,探索人工智能的分支之一:深度学习(deep learning)。借此,Facebook 希望在未来能给用户提供更智能化的产品使用体验。
此消息一出,立刻成为机器学习顶级会议 NIPS 本年度会议上一道引人注目的风景,同时也为近两年大热的深度学习再添火一把。据悉,Google 于近日雇佣了未来学和人工智能专家Ray Kurzweil担任其人工智能计划的工程总监,微软最杰出的工程师之一、Bing Mobile 和 Bing Maps 开发的关键人物Blaise Agüera y Arcas 也已加盟 Google的机器人学习团队。IBM 也在深耕深度学习,旗下的超级计算机Watson凭借“高智商”已经在华尔街花旗集团找到了一份工作,负责证券投资组合管理。今年 10 月,雅虎收购了图片分析初创公司LookFlow,计划提升 Flickr 的搜索及内容发现体验。
那么,到底什么是深度学习?靠谱吗?对广大创业者来说,其中究竟存在怎样的机会?在下文,我会尝试梳理一下关于深度学习的概念,并分享一点个人的思考。
正如 Zuckerburg 所澄清的那样,Facebook(及本文所讨论)的人工智能是计算机科学中狭义的人工智能,并没有人工建造人脑那样的野心。这种人工智能,是基于数学(统计)进行问题求解的机器学习算法(machine learning algorism),即我们常常提到的大数据时代的算法核心。机器学习无处不在:互联网广告投放、网络传播、趋势预测、机器人研发、计算机视觉、搜索、自然语言理解,以及生物信息识别等都离不开机器学习。这也是诸多大公司在这个领域频频投资的主要原因。
深度学习是怎么火的?
什么是深度学习(deep learning)?说白了,就是人工神经网络(Artificial Neural Network,以下简称 ANN)这个旧瓶装了新酒。
人工神经网络包含输入层、输出层以及中间的若干隐层(hidden layer),每层都有若干结点及连接这些点的边,在训练数据集上会学习出边的权值,从而建立模型。随着边所表征的函数的不同,可以有各种不同的神经网络。这种源于人工智能中联结主义学派(connectionism)的方法在上世纪七八十年代盛极一时。John Hopfield,Geoffrey Hinton 和 Yann Lecun 等多位学者都对 ANN 颇有研究。
然而不幸的是,和学术论文中鼓吹的不同,在诸多工程领域中,人们发现 ANN 并没有表现出比其他经典算法更好的性能。究其原因,由于巨大的计算量和优化求解难度,ANN 只能包含少许隐层,从而限制了性能。控制领域仍然在使用经典的 PID 调节,而在机器学习领域,随着以支持向量机和贝叶斯网络为代表的统计学习在 90 年代的兴起,ANN 开始倍受冷落。
Geoffrey Hinton 曾感慨自己的学术生涯就像 ANN 一样起起伏伏。所幸的是,这位 Gatsby 的创立者一直没有放弃 ANN 的研究。从 06 年开始,他陆续开始发表关于如何改进 ANN 的文章,主要是通过很多数学和工程技巧增加隐层的层数,也就是深度,所以被称为深度学习。虽然 Hinton 的观点没有得到足够重视,成为主流共识,但大家开始更加关注这一领域。
08 年 NIPS 基金会没有批准 Deep Learning 的研讨会申请,结果组织者自行开会,包括 Michael Jordan,Andrew Blake 等一众机器学习及相关领域最具影响力的资深学者都出席了会议,会场爆满。除了一直没有放弃的 LeCun 等人,这一领域还吸引来了 Stanford 机器学习的教授、Coursera 创始人 Andrew Ng。Ng 的研究组,率先做出了和现有最高水平相提并论的结果。后来, 大家一步步推进,深度学习在很多实际评测中遥遥领先,一下就火了。
深度学习主张,如果 ANN 的隐层足够多,选择适当的连接函数和架构,并增加一个非监督学习的“pre training”网络组成,就会具有更强的表述能力,但常用的模型训练算法反向传播(back propagation)仍然对计算量有很高的要求。近年来,得益于计算机速度的提升、基于 MapReduce 的大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才在实践中有了用武之地。
在计算机视觉领域,深度学习首先在手写识别领域表现出众。2012 年,在物体识别(被誉为计算机视觉圣杯)的权威测试 Imagenet Challenge 中,深度学习遥遥领先于其他经典算法(16% VS 26%),吸引了无数眼球。纽约大学计算机科学系副教授 Rob Fergus(和 Yann LeCun 一起加入 Facebook AI Lab)的学生 Matthew Zeiler,创立了一家提供图像搜索服务的公司——Clarifai。他的深度学习算法在本月刚刚结束的 ICCV Imagenet Challnge 2013 中,继续领先于其他算法。
深度学习产品化的浪潮中,科技巨头机会更大
Google 研究员 Ilya Sutskever 最近表示,如果数据足够多、计算能力足够强、人工神经网络足够深,即便不加“pre training”预处理,也可以取得目前最好的结果,这充分证明,目前的深度学习对标注数据量和计算能力都提出了很高的要求。
目前更像是巨头们的游戏。Google 和百度都已在自己的图像搜索中部署了深度学习技术。Google 在内部多个项目组推广深度学习平台,而百度也将深度学习算法运用到了语音等多个产品中。今年 5 月,前 Facebook 资深科学家徐伟加盟百度深度学习研究院(Institute of Deep Learning, IDL)。在这次 NIPS“深度学习研讨会”上,IDL 还设立了展台,它在深度学习方面的研究成果在学术界也越来越有影响力。
最近,Facebook 在人工智能领域动作频频。Zuckerburg 和俄罗斯富豪尤里一起创立了 300 万美元奖金的 Breakthrough Prize in Mathematics,可谓与 AI Lab 的设立一脉相承。拥有海量数据的互联网巨头中,Google 收购了 Geoffrey Hinton 的创业公司 DNNResearch(一家专注于语音和图像识别技术的研究公司), 百度挖来余凯老师创立了 IDL 研究院,IBM 研究院 Watson 电脑开始研究深度学习相关技术,微软研究院邓力老师率先把深度学习应用在语音识别中,Yahoo 收购了 LookFlow 来创建深度学习小组,Amazon 在柏林创立了机器学习研究中心……
这一系列行动,无论是出于战略防御,还是单纯被深度学习吸引,一个无法否认的事实是:深度学习产品化的热潮已经扑面而来。
深度学习有局限性,初创公司应理性选取机器学习算法
有些人觉得深度学习似乎没有理论深度,其实不然。查阅一下 Geoffrey Hinton 的论文,其中用到的理论很深刻,数学技巧也很复杂,深度学习的理论门槛较高。但是好消息是,以 Hinton、Yoshua Bengio 为首的研究组开放了越来越多的源代码,包括 GPU 的实现,而且多种不同算法的开源实现也被公开,所以算法实现的门槛已经降低了很多。
对于创业者来说,困难在于如何获取大规模已标注数据、集成有 GPU 的计算集群以及针对自己的项目调参数。调参数一直是深度学习被学术界诟病的话题,早期只有几个圈内的小组掌握着调参数的秘方和数据处理的技巧。目前的深度学习参数调节已经比之前透明化了许多,但仍是开发过程中最为耗时的一部分。
目前主打深度学习的创业公司并不是很多,除了被Google收购的DNNResearch,Hinton 的另外一个学生最近在伦敦组建了 DeepMind,也在 NIPS 研讨会上进行了展示,他们使用深度学习改进了传统的强化学习,以寻找优秀的策略来打游戏,算法的表现和人的策略很相似。
还有位于旧金山的初创公司 Ersatz 主打深度学习的云平台,以进一步降低深度学习的门槛,但是除了数据问题,其技术水平有待观察且商业策略与众多大数据平台小公司无二,能否在激烈的商业拓展中脱颖而出还是问号。还有个别图像和文字理解的初创公司加入了深度学习的模块作为补充手段,在实际问题尤其是不同数据集上的应用尚有待观察。
但是,深度学习算法能够成功运行的前提仍然是,项目能够采集到充分大的标注且数据维度足够高或者你的想法足够通用。有了大数据样本才能缓解复杂模型的过度学习(overfitting)。从某种意义上说,这也给了其他机器学习算法很多机会。比如说,因为隐私原因,服务企业的大数据平台就很难应用深度学习,
深度学习的另一局限性是可解释性不强,即便是一流的学者也很难对效果超群的深度学习算法在具体问题上给出具体解释。这有可能成为产品迭代过程中的阻碍。深度学习本身是支持在线学习和数据流,但是相关理论尚待完善。如上所述,深度学习目前主要集中于监督学习,在非监督学习领域,除了 Google 前一段时间公布的用于自然语言处理的 word2vec,还没有很出彩的工作。
从深度学习的研究者身上,我们可以看到,一个好的研究者要对自己的研究有足够强的信念。正如马云所说,好的创业者要坚持自己的信念,而不是盲目跟风。我前不久遇见了 Aria Haghigh,他是 Prismatic 这个创业公司的创始人,同时也是一位名校毕业、成果卓著的机器学习研究者,放弃了教职出来创业。他也懂深度学习,但是对于他的产品和数据来说,他说深度学习并不是首选,因为数据的特性不同。
Prismatic 其实用的是 Logistical Regression 的算法,这一算法相对成熟,不过依然有很多地方可以优化。他们甚至自行创建了分布式系统,而不是使用 Hadoop。事实上,目前诸多搜索引擎和社交网络的广告系统都是以 Logistical Regression 的算法为基础的,相关产品的体验和速度都非常棒。朴实的算法,花同样的时间去调参数,对产品已经足够了,因为用户是不会察觉准确率上百分之零点几的差别。
此外,每个人对人工智能都有自己的见解。比如,Peter Thiel 投资了 Machine Intelligence Research Institute——这个研究机构对于目前主流的机器学习算法不满,试图从交叉学科的角度,创建更接近人、更友好的智能。
历史不会重演,却常常惊人得相似。翻开 Yann LeCun 的简历,这并不是他第一次投身工业界。他曾经是 AT&T 实验室(Bell 实验室拆分后留在 AT&T 的部分)图像处理组的负责人,并试图硬件化人工神经网络,后来由于公司策略调整,整个研究组被裁,他才挪移到纽约大学任教,继续自己独树一帜的研究(曾赢得国防部的合同)。
这次,他终于等到了深度学习(deep learning)的复兴,接受了 Facebook 的工作邀约再次回归工业界。之所以会聘请 LeCun 等高校教授回到业界,是因为深度学习在实践中确实取得了效果,而公司之前也雇佣过这些教授麾下的学生,合作下来都很愉快。
谁也不知道深度学习是否会像其他算法一样进入瓶颈期。如何把深度学习运用到产品中,将产品智能化,提升用户体验——这越来越受到公司的关注。