浅读AlphaGo zero

这两天花点时间看了发表在《Nature》上的Mastering the Game of Go without Human Knowledge这篇文章，文章号称可以无人类先验知识，仅使用围棋的自身规则进行学习、自助调参，使用一个网络完成训练。然后就可以进行下棋，并成功打败他的哥哥AlphaGo Lee和AlphaGo Fan.

相关数据：

训练了3天，进行了4.9百万次对弈。 0.4s计算每次的落子。

使用了AlphaGozero 4 TPUs（张量处理单元）。

下面说说我从中读到的主要思想：

使用强化学习，主要采用MCTS（蒙特卡洛树搜索），MCTS搜索的输出是每一步的落子概率pi。神经网络的参数θ 会根据最大化规则向量pt和搜索概率 π t ，并且最小化预期的赢家v和棋局赢家z之间的误差。每一轮求得的参数会在下一轮自学习迭代中进行更新。

正文部分也就短短14页，就表述了整个过程和最后的评价结果。

下面进行简单分析：

一、与前面几代的区别：

1、通过自身的强化学习，没有监督信息和人类的棋谱数据；

2、只使用黑白棋子作为输入特征；

3、只使用单层神经网络而不是最初的一个落子规则网络，一个存储结果的价值网络；

4、使用更简单的依靠单个神经网络来评估位置和样本移动，而没有任何蒙特卡洛导出蒙特卡洛-树搜索。

这篇文章的主要贡献是证明了一点：人类所能达到的极限表现是可以通过0人类知识的机器学习达到。

二、训练过程中所需要的信息

AlphaGo Zero在其训练程序中明确或隐含地使用的领域知识或其蒙特卡罗树搜索; 这些是需要替代的知识项目AlphaGo Zero学习不同的（交替马尔科夫）博弈：

1、完善的围棋规则信息；使用MCTS来模拟一串摆子位置的序列，并且当得到一个终点时就进行评分。终点的原则是双方都结束，或者一共走了722手棋，每一方在任一位置都被给予一系列合法的可走棋的方向。

2、使用Tromp-Taylor scoring规则。

3、输入特征描述了这个位置是19*19的图像，这个神经网络的结构是与棋盘网格结构相匹配的。

4、围棋规则在旋转和反射是不变的。AlphaGo zero 通过增加包含每个位置旋转和反射的数据集，在MCTS时随机采样旋转和反射位置。

强化学习的运用：

使用交替马尔科夫博弈过程而非基于值或策略迭代。自交锋强化学习之前已经被应用到围棋中，使用一个基于围棋知识的高级的网络来代表连通、占领和棋眼。这个网络由时序差分学习而得到来预测游戏中能够包围的范围。

蒙特卡洛的方法是模拟（或者经历）一段情节，在情节结束后，根据情节上各个状态的价值，来估计状态价值。

时序差分学习是模拟（或者经历）一段情节，每行动一步（或者几步），根据新状态的价值，然后估计执行前的状态价值。

可以认为蒙特卡洛的方法是最大步数的时序差分学习。

Domain Knowledge：

它不使用任何导出规则或树规则，而MCTS不会被其他任何启发式或域特定规则所扩展。没有合法的走子被排除（包括之前的一些启发式算法）。

这个算法（神经网络）起始于随机的初始参数，神经网络的结构是基于当前最先进的图像识别技术，相应地选择训练的超参数。通过高斯过程优化选择MCTS搜索参数，以便使用神经网络来优化AlphaGo zero自我训练。对于较大的运行MCTS搜索参数会根据较小的模块训练的神经网络来重新优化MCTS搜索参数。训练过程无需人工干预。

监督学习：

使用这种联合的策略和值网络结构，通过使用低权值成分，避免过拟合。参数通过随机的梯度下降和学习速率模拟退火策略来优化这些参数。 AlphaGo Zero 使用更加简单的异步策略。

卷积残差网络（带有批量归一化和非线性校正器）

它主要思想很简单，就是在标准的前馈卷积网络上，加一个跳跃绕过一些层的连接。每绕过一层就产生一个残差块(residual block)，卷积层预测加输入张量的残差。如下图所示：

普通的深度前馈网络难以优化。除了深度，所加层使得training和validation的错误率增加，即使用上了batch normalization也是如此。残差神经网络由于存在shorcut connections，网络间的数据流通更为顺畅。ResNet作者认为深度残差网络不太可能由于梯度消失而形成欠拟合，因为这在batch normalized network中就很难出现。残差网络结构的解决方案是，增加卷积层输出求和的捷径连接。

参考博文：http://blog.csdn.net/zackzhaoyang/article/details/51657305

下面就是一些更新公式和一些计算的方法。具体公式可以参考原文。

Select：每个模拟的第一个树上阶段从搜索树的根节点s0开始，并且当模拟到达时间步长L的叶节点S1时结束。

Expand and evaluate ：

叶节点被添加到队列中让神经网络进行评价。

Backup：

边缘统计信息通过每个步骤的后向遍历进行更新，N（st，at）= N（st，at）+1，动作值更新为平均值W（st，at）= W（st，at ）+ v，Q（st，at）=W（s t，a t）N（s t，a t）。我们使用虚拟丢失来确保每个线程评估不同的节点。

Play:

在搜索结束时，AlphaGo Zero会选择一个在根中落子，与其指数访问计数成比例，其中τ是控制探测水平的参数。搜索树在随后的时间步骤中重复使用：与播放动作相对应的子节点变为新的根节点;该小孩下面的子树与其所有统计信息一起保留，而剩下的树被丢弃。如果AlphaGo Zero的根值和最佳子值低于阈值，则会退出。

与AlphaGo Fan和AlphaGo Lee的MCTS相比，主要区别在于AlphaGo Zero不使用任何推出;它使用单个神经网络代替单独的策略和价值网络;叶节点总是扩展，而不是使用动态扩展;每个搜索线程只是等待神经网络评估，而不是异步执行评估和备份;没有树政策。在AlphaGo Zero的大型（40块，40天）实例中也使用了转置表。

自己的阅读太浅薄，附上两位大牛的读后感：

南大周志华系教授：

1、别幻想什么无监督学习，监督信息来自精准规则，非常强的监督信息。

2、不再把围棋当作从数据中学习的问题，回归到启发式搜索这个传统棋类解决思路。这里机器学习实质在解决搜索树启发式评分函数问题。

3、如果说深度学习能在模式识别应用中取代人工设计特征，那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变，或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。

4、类似想法以往有，但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设空间竟有强烈的结构，存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我们自然放弃此等假设，所以这个尝试相当大胆。

5、工程实现能力超级强，别人即便跳出盲点，以启发式搜索界的工程能力也多半做不出来。6.、目前并非普适，只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务。

上科大马毅教授：

这篇论文可以说没有提出任何新的方法和模型–方法可以说比以前的更简单“粗暴”。但是认真正确彻底的验证了这个看似简单的想法到底work不work。

最后编辑于：2017.12.11 05:00:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,636评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,890评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,680评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,766评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,665评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,045评论 1赞 276
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,515评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,182评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,334评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,274评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,319评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,002评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,599评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,675评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,917评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,309评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,885评论 2赞 341

浅读AlphaGo zero

推荐阅读更多精彩内容