文/雅木风
还记得前天,是个差不多阳光明媚的日子吧,连续的雨天阴天,让人没有一点点精神。吃过午饭,我想要在校园里溜达一下,顺便寻找一丢丢光的影子。无聊打开手机,一瞬间,朋友圈都要被《今日Nature》这篇推文刷屏了。仔细阅读完这篇文章,我的内心也是说不出来的滋味,感叹于人工智能的飞速发展,又忧心于人工智能的厉害。心心念念了好多天,总想来点碎碎念。
我们都知道去年,阿法狗勤奋刻苦,读遍了人世间的所有棋谱,用高超精进的棋艺,以4-1打败了世界冠军李世石,从此无敌天下,就差孤独求败了。就在前天DeepMind在世界顶级科学杂志《Nature》上发表文章《Mastering the game of Go without human knowledge》,引发了科研学术界的巨大轰动。这篇文章让我们知道了,阿法狗有了一个弟弟叫AlphaGo Zero阿法元,他在没有看过一个棋谱,没有一个人指点的前提下,从零开始,完全依靠自我的强化学习和参悟,棋艺增长,在短短三天内,成为顶级高手,以100-0击败哥哥阿法狗,可谓是百战百胜。
在得知这个消息后,中国棋手柯洁在微博上发文称“一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了”......这可能是一种略带调侃又无奈的情绪吧,毕竟AI的迅速发展对于人类社会来说,是利是弊,还有待定论,关键还是看人类如何去应用AI的发展吧。
不过,就这篇文章来说,阿法元的学习不受人类知识的限制,并且足够的“低碳”。只用到了一台机器和4个TPU,极大的节省了资源。而此前版本的阿法狗在强化学习的监督学习中结合数百万人类围棋专家的棋谱,依靠的是多台机器和48个TPU。
据AlphaGo Zero团队负责人Dave Sliver介绍AlphaGo Zero使用新的强化学习方法,让自己变成老师。系统一开始甚至不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,精心自我对弈。随着自我对弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。并且DeepMind团队发现,AlphaGo Zero独立发现了游戏规则,走出了新的策略,为围棋这项古老的游戏注入了新的见解。简直是研究中的惊喜。
不过这篇文章让大家也关注到了一个白板理论(Tabula rasa),而AlphaGo Zero最大的突破是实现了白板理论。所谓的白板理论是哲学上的一个著名观点,认为婴儿生下来是白板一块,通过不断训练、成长获得知识和智力。只不过现代科学了解到的事实并非如此,婴儿生下来就有先天的一些能力,比如偏爱高热量的食物,饿了就会哭闹以希望得到注意。这是生物体在亿万年的演化中学来的。
作为 AI 领域的先驱,图灵使用了这个想法。在提出的著名的“图灵测试”的论文中,他从婴儿是一块白板出发,认为只要能用机器制造一个类似小孩的 AI,然后加以训练,就能得到一个近似成人的智力,甚至超越人类智力的AI。
不过,在将这个理论应用于机器身上的同时,也许我们也可以关注到我们人类自身的学习,我们究竟该如何看待人类经验的作用呢?勿过分依赖于经验,还是经验至上。
也许摆脱现有经验模块是意义重大的。我们的经验是基于对世界的观察和探索,只是这观察结果的局部正确可能会导致后续研究的止步不前。同时,随着AI的快速发展,我们不得不承认机器的学习及运算速度是远远超过人类的。
碎碎念之后,不禁感叹于金庸武侠小说的思想之广博,逻辑之精深。犹记得射雕英雄传中老顽童在山洞里,左手画圆右手画方,就是这左右互博术,自己和自己打,不断参悟,不断提升自我。还有倚天屠龙记中,张三丰教张无忌太极剑,待张无忌将剑法忘得干干净净之后,让他前去应敌。果然,人一生最大的敌人从来都只有自己,自我博弈,自我突破,自我提升。
阿法元就像一个无招胜有招的独孤大侠,完胜。