阿尔法狗（AlphaGo）运行机制是怎么样的？

在很多评论中，对于AlphaGo都有很多不正确的猜测，首先是AlphaGo有没有整体棋局评估的能力，那么阿尔法狗的运营机制导致到底是怎么样的？

AlphaGo有哪两个大脑组成的神经网络系统组成？

在架构上，AlphaGo可以说是拥有两个大脑，两个神经网络结构几乎相同的两个独立网络：策略网络与评价网络，这两个网络基本上是个13层的卷积神经网络所构成，卷积核大小为5*5，所以基本上与存取固定长宽像素的图像识别神经网络一样，只不过我们将矩阵的输入值换成了棋盘上各个坐标点的落子状况。

第一个大脑「策略网络」基本上就是一个单纯的监督式学习，用来判断对手最可能的落子位置。他的做法是大量的输入这个世界上职业棋手的棋谱，用来预测对手最有可能的落子位置。在这个网络中，完全不用去思考赢这件事，只需要能够预测对手的落子即可。目前AlphaGo预测对手落子位置的正确率是57%(这是刊登在Nature文章时的数据，现在想必更高了)。那各位可能认为AlphaGo的弱点是否应该就在策略网络呢？

一方面是由于预测准确率不高，再者是如果下了之前他没看过的棋局是不是就有机会可以赢过他。可惜并不是，因为AlphaGo的策略网络有做了两个层面增强，第一个层面是利用了名为增强策略网络的技术，他先使用部分样本训练出一个基础版本的策略网络，以及使用完整样本建立出来的进阶版策略网络，然后让两个网络对弈，后者进阶版策略网络等于是站在基础版前的高手，因此可以让基础网络可以快速的熟即到高手可能落子的位置数据，进而又产生一个增强版，这个增强版又变成原有进阶版的「高手」，以此循环修正，就可以不断的提升对于对手(高手)落子的预测。

第二个大脑是评价网络。在评价网络中则是关注在目前局势的状况下，每个落子位置的「最后」胜率(这也是我所谓的整体棋局)，而非是短期的攻城略地。也就是说策略网络是分类问题(对方会下在哪)，评价网络是评估问题(我下在这的胜率是多少)。评价网络并不是一个精确解的评价机制，因为如果要算出精确解可能会耗费极大量的计算能力，因此它只是一个近似解的网络，而且透过卷积神经网络的方式来计算出卷积核范围的平均胜率(这个做法的目的主要是要将评价函数平滑化，同时避免过度学习的问题)，最终答案他会留到最后的蒙利卡罗搜寻树中解决。

当然，这里提到的胜率会跟向下预测的步数会有关，向下预测的步数越多，计算就越庞大，AlphaGo目前有能力自己判断需要展开的预测步数。但是如何能确保过去的样本能够正确反映胜率，而且不受到对弈双方实力的事前判断(可能下在某处会赢不是因为下在这该赢，而是这个人比较厉害)，因此。这个部分它们是透过两台AlphaGo对弈的方式来解决，因为两台AlphaGo的实力可以当作是相同的，那么最后的输赢一定跟原来的两人实力无关，而是跟下的位置有关。

也因此评价网络并不是透过这世界上已知的棋谱作为训练，因为人类对奕会受到双方实力的影响，透过两台对一的方式，他在与欧洲棋王对弈时，所使用的训练组样本只有3000万个棋谱，但是在与李世石比赛时却已经增加到1亿。由于人类对奕动则数小时，但是AlphaGo间对奕可能就一秒完成数局，这种方式可以快速地累积出正确的评价样本。所以先前提到机器下围棋最大困难点评价机制的部分就是这样透过卷积神经网络来解决掉。

蒙地卡罗搜寻树技术跟阿尔法狗有什么关系？

AlphaGo技术的最后环节就是蒙地卡罗搜寻树，相较于以前深蓝所使用的搜索(搭配MinMax搜索算法以及Alpha-Beta修剪法，这里就不再赘述)，由于我们并非具有无限大的计算能力(请注意，如果是有限的排列组合，蒙地卡罗搜寻树的确有可能针对所有组合进行通盘评估，但是在围棋的场景下是没有办法的，就算这样做，恐怕也会造成计算时间的大幅增加)，因此不可能是适用于旧的方法，不过在前面策略网络以及评价网络中，AlphaGo已经可以针对接下来的落子(包括对方)可能性缩小到一个可控的范围，接下来他就可以快速地运用蒙地卡罗搜寻树来有限的组合中计算最佳解。

一般来说蒙地卡罗搜寻树包括4个步骤：

1. 选取：首先根据目前的状态，选择几种可能的对手落子模式。

2. 展开：根据对手的落子，展开至我们胜率最大的落子模式(我们称之为一阶蒙地卡罗树)。所以在AlphaGo的搜寻树中并不会真的展开所有组合。

3. 评估：如何评估最佳行动(AlphaGo该下在哪?)，一种方式是将行动后的棋局丢到评价网络来评估胜率，第二种方式则是做更深度的蒙地卡罗树(多预测几阶可能的结果)。这两种方法所评估的结果可能截然不同，AlphaGo使用了混合系数(mixing coefficient)来将两种评估结果整合，目前在Nature刊出的混合系数是50%-50%(但是我猜实际一定不是)

4. 倒传导：在决定我们最佳行动位置后，很快地根据这个位置向下透过策略网络评估对手可能的下一步，以及对应的搜索评估。所以AlphaGo其实最恐怖的是，李世石在思考自己该下哪里的时候，不但AlphaGo可能早就猜出了他可能下的位置，而且正利用他在思考的时间继续向下计算后面的棋路。

使用蒙利卡罗搜索树技术能够阿尔法狗的等级层度达到迅速的提高

根据AlphaGo团队的实测，如果单独使用一个大脑或是蒙利卡罗搜索树技术，都能达到业余(段)的等级(欧洲棋王樊摩强度等级大概是在2500~2600，而李世石是在3500以上)。但是当这些技术整合就能呈现更强大的力量。

但是在刊登Nature论文时他的预估强度大概也只有职业3~4段(李世石是9段)，不过刚刚提到他透过增强技术强化策略网络、透过两台AlphaGo来优化评价网络，这都可以让他可以在短时间变得更加强大。而且计算机没有情感也不怕压力，更不会因为对手表现而轻敌(AlphaGo的策略网络一向只预测强者)，所以人类就算有更强大的实力也未必能够承受输赢压力而做最好的发挥。

公子义【微信号gongzi348】80后，90后心理研究专家，4年心理学，9年大数据研究者，专注于移动互联网，大数据究狂热爱好者，热爱写作。原创文章，未经许可，严禁转载，违者追究法律责任。

最后编辑于：2017.12.03 03:26:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

阿尔法狗（AlphaGo）运行机制是怎么样的？

推荐阅读更多精彩内容