【所见所闻】Andrew Ng:深度学习的挑战和展望"

深度学习为何产生?

一直以来,在人工智能领域,我们试图达到获得大量数据、做出优秀产品和赢得广大用户三者之间的良性循环,但传统的机器学习算法表现并不够好,良性循环也未能实现。
深度学习相比于传统方法有很多优势,随着训练量的提高,传统方法遇到了瓶颈,但深度学习的效果却蓬勃发展,不断提高。

深度学习相比于传统方法的优势

随着训练量的提高,传统方法很快走到天花板,而Deep Learning的效果还能持续走高。
其实这是一个特征表达力的问题,传统方法特征表达力,不如Deep Learning的多层学习得到的更有效果的表达。举个例子,假定有一种疾病,这种疾病容易在个高且胖的人群,以及个矮且瘦的人群中易感。那么任意从给一个特征角度上看,比如肥胖,那么胖的这部分人中,得此病的概率为50%,不胖的也是50%,那么"胖"这个特征没有表达力。
Ng直观的展示了从像素级特征(表达力最弱)到edges级特征,直到object级特征。 从edges特征大家看到的这个形式,其实是深度神经网络的edges中的一个小块,就是input layer到第一个hidden layer之间的一组边(如果是RBM的话)或者是第一个hidden layer到output layer的一组边,这组边可以理解成training的成果。而hidden layer是一个sparse coding的向量,用来combine不同组的边来还原出input layer。


因此可以看到,通过深度学习的处理,无需tagged data,通过自学习的方式,就可以做到特征的表达力从像素级,提高到了 object models,多么美妙啊!

深度学习有哪些发展

Andrew Ng:
当年在斯坦福大学,我和我的团队曾经有一个想法,让机器人去识别咖啡杯。但机器人看到的东西和人完全不一样,我们会看到一个具体的杯子,但机器能看到的只有数据,这也是计算机视觉(computer vision)难点所在,那就是要搞明白这些数字代表了什么。
过去我们的研究主要集中在三个领域。第一个是计算机视觉,目的是发现物体特征,然后描绘这种特征。第二个是语音识别(speech recognition),比如对机器说:“请找到我的咖啡杯”,机器就会识别这句话的意思。第三个是文本识别,这个有助于我们更好的应用,比如机器翻译、网络搜索等。
很长一段时间,我们设计了大量program,也发了一些paper,但研究没有什么突破性进展。直到大概七年前,我和我的学生突然有一个想法:人脑中大部分感知器是一个非常简单的计算过程。
而对于人脑的研究也表明,这个“one program”的假设是有可能的。我们可以从大脑如何听、如何看开始,去了解大脑的神经元如何工作,并进而为深度学习提供理论依据。
有了这个依据,我们开始从有标记数据(tagged data)中学习,也就是有监督学习(supervised learning)。在给机器看了50000张咖啡杯图片后,我们让机器人在斯坦福计算机系办公楼里找咖啡杯,效果非常好。进一步研究后,我们认识到bigger is better,即特征越多,实验效果越好。

实际上,人类大脑如何处理图片的过程就是visual cortex寻找图片中Lines/edges的过程,而每一个visual cortex的神经元就是一个Model。基于生物学中visual cortex的工作原理,发现人脑处理的过程是:像素->边缘->对象部分->对象模型。深度学习的过程是反向的。深度学习就是找到小patch再将其进行组合,就得到了上一层的特征(feature),递归地向上学习特征( feature)。在不同对象(object)上做训练是,所得的边缘(edge)是非常相似的,但对象部分(object parts)和模型(models) 就会完全不同。

深度学习存在的问题

Ng提到,通常学生试验在10 million connections这个水平,因为再大已经超出计算的能力,但如果采用并发的方法,160000万个CPUs的情况下,可以达到1 billion connections这个水平。如果采用特制的GPU来计算,可以达到10 billion connections的水平。
这就相当于一个巨大语料切成n个部分,每个部分产生表达力强的特征,而这些表达力强的特征在一个阶段,就是那个长条哪里进行combine,也就是这个hidden layer可以很好的表达来自不同shard的特征,最后在展开各层,用不同shard上的tagged data 来进一步调整每条边的权重。

深度学习的关键

人脑中大部分感知器是一个非常简单的计算过程。但通过组合可以达到很高的理解力。但问题是如何组合,感知的过程如何从低级阶段到高级阶段,从明暗,色彩的感知,到人类喜怒哀乐的情感,整个过程的每一步可能都是naive得,但 整个认知链条的末端一定是语义的,有感情的,上升到概念的。另外,通常还有一个体会,比如看一本小说,脑海中就能自然浮现画面,可见不同神经感知器也不是完全独立的,而是彼此联系的。

深度学习的未来趋势

Andrew教授对深度学习未来的发展进行了展望:
1)将会越来越重视对无标记数据的特征学习;
2)深度学习将全面占领计算机视觉和语音识别领域;
3)向量化表示的提出将对NLP领域产生重大影响,并将对机器翻译、网页搜索和对话系统等性能提升有所帮助。总的来说,模型的规模依旧是最大的挑战。

Andrew Ng:
我认为0-2年内仍以标记数据为主导发展方向,之后的3-5年,标记数据和未标记数据将共同发展。但关于深度学习的未来更长远的发展,我认为将会更依赖于无标记的数据,因为这与人类和动物认知世界的过程更为类似。
具体地说,在计算机视觉方面,预计在6年内,我认为深度学习将会颠覆现有的所有方法。
在语音识别方面,目前还处于起步阶段,未来将会有爆发式增长。语音识别和语音合成会在近几年产生巨大的影响。语义理解方面,发展的过程将会是从单词的理解到一个句子,再到文章理解(document representation)。推荐系统和广告方面,百度做的很好,有效提高了广告表现。机器人方面,未来将会出现真正的智能机器人。
此外,就是对获取数据的创新。现在的很多研究都是基于海量数据,未来或许我们可以通过某种传感器训练摄像头来捕捉更多的数据。我甚至想和朋友在空闲的时间里,成立一个国际数据获取大会(conference of data acquisition),很遗憾,我没有这个时间。而未来的挑战将会集中在规模化和算法这两方面。

转载请注明作者Jason Ding及其出处
Github主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容