图文详解AlphaGo的原理及弱点

消耗积分:1 | 格式:rar | 大小:0.6 MB | 2017-10-12

分享资料个

　近期AlphaGo在人机围棋比赛中连胜李世石3局，体现了人工智能在围棋领域的突破，作为人工智能领域的工作者，我们深感欣慰。其实质是深度学习网络（CNN）跟蒙特卡罗搜索树（MCTS）结合的胜利，是人类智慧的进步。不少***的“砖”家开始鼓吹机器战胜人类、甚至人类将被机器统治等无知言论，让人实在看不下去。作为围棋爱好者和人工智能领域工作者，我们觉得是时候跟大家讲讲AlphaGo的原理及其弱点了。
　　可以很负责任的告诉大家，AlphaGo还没有完全攻克围棋这个难题，职业棋手也并非没有希望赢Go了，更不能说机器战胜了人类。AlphaGo未来需要走的路还很长。如果有***职业棋手想挑战AlphaGo，我们愿意为其组建最顶尖（且懂围棋）的人工智能专家顾问团，助其取胜AlphaGo。
　　虽然网上技术贴不少，但还没有一篇文章完全讲清楚AphaGo的原理，Nature上刊登的文章也缺乏一张刨解全局的图（加之用英文描述，同学们很难理解透彻）。以下是我跟张钧波博士在多次阅读原文并收集了大量其他资料后，一起完成的一张图，解释了AlphaGo的原理，看完后大家自然知道其弱点在何处了。
　　图文详解AlphaGo的原理及弱点

　　图1、AlphaGo的原理图（作者为本图花费大量心血，版权归两位作者所有，欢迎转发，但请勿盗图）
　　AlphaGo总体上包含离线学习（图1上半部分）和在线对弈（图1下半部分）两个过程。
　　离线学习过程分为三个训练阶段。
　　第一阶段：利用3万多幅专业棋手对局的棋谱来训练两个网络。一个是基于全局特征和深度卷积网络（CNN）训练出来的策略网络（Policy Network）。其主要作用是给定当前盘面状态作为输入，输出下一步棋在棋盘其它空地上的落子概率。另一个是利用局部特征和线性模型训练出来的快速走棋策略（Rollout Policy）。策略网络速度较慢，但精度较高;快速走棋策略反之。
　　第二阶段：利用第t轮的策略网络与先前训练好的策略网络互相对弈，利用增强式学习来修正第t轮的策略网络的参数，最终得到增强的策略网络。这部分被很多“砖”家极大的鼓吹，但实际上应该存在理论上的瓶颈（提升能力有限）。这就好比2个6岁的小孩不断对弈，其水平就会达到职业9段？
　　第三阶段：先利用普通的策略网络来生成棋局的前U-1步（U是一个属于［1， 450］的随机变量），然后利用随机采样来决定第U步的位置（这是为了增加棋的多样性，防止过拟合）。随后，利用增强的策略网络来完成后面的自我对弈过程，直至棋局结束分出胜负。此后，第U步的盘面作为特征输入，胜负作为label，学习一个价值网络（Value Network），用于判断结果的输赢概率。价值网络其实是AlphaGo的一大创新，围棋最为困难的地方在于很难根据当前的局势来判断最后的结果，这点职业棋手也很难掌握。通过大量的自我对弈，AlphaGo产生了3000万盘棋局，用来训练价值网络。但由于围棋的搜索空间太大，3000万盘棋局也不能帮AlphaGo完全攻克这个问题。
　　在线对弈过程包括以下5个关键步骤：其核心思想实在蒙特卡罗搜索树（MCTS）中嵌入了深度神经网络来减少搜索空间。AlphaGo并没有具备真正的思维能力。
　　根据当前盘面已经落子的情况提取相应特征;
　　利用策略网络估计出棋盘其他空地的落子概率;
　　根据落子概率来计算此处往下发展的权重，初始值为落子概率本身（如0.18）。实际情况可能是一个以概率值为输入的函数，此处为了理解简便。
　　利用价值网络和快速走棋网络分别判断局势，两个局势得分相加为此处最后走棋获胜的得分。这里使用快速走棋策略是一个用速度来换取量的方法，从被判断的位置出发，快速行棋至最后，每一次行棋结束后都会有个输赢结果，然后综合统计这个节点对应的胜率。而价值网络只要根据当前的状态便可直接评估出最后的结果。两者各有优缺点、互补。
　　利用第四步计算的得分来更新之前那个走棋位置的权重（如从0.18变成了0.12）;此后，从权重最大的0.15那条边开始继续搜索和更新。这些权重的更新过程应该是可以并行的。当某个节点的被访问次数超过了一定的门限值，则在蒙特卡罗树上进一步展开下一级别的搜索（如图2所示）。
　　图文详解AlphaGo的原理及弱点

　　图2、MCTS拓展下一级节点
　　AlphaGo的弱点在哪里？
　　攻其策略网络，加大搜索空间。进入中盘后，职业选手如能建立起比较复杂的局面，每一步棋都牵连很多个局部棋的命运（避免单块、局部作战），则AlphaGo需要搜索空间则急剧加大，短时间内得到的解的精度就会大打折扣。通俗地说，非常复杂的变化，人算不清楚，现阶段计算机的计算力更没办法。李世石九段的第四局棋就有这个意思。此处左右上下共5块黑白棋都相互关联到一起，白1下后，黑棋需要考虑很多地方。很多地方都需要在MCTS上进行更深入的搜索。为了在一定的时间内有结果，只能放弃搜索精度。
　　图文详解AlphaGo的原理及弱点

　　图3、李世石对AlphaGo第四盘棋棋谱
　　攻其价值网络，万劫不复：AlphaGo的价值网络极大地提高了之前单纯依靠MCTS来做局势判断的精度，但离准确判断围棋局势还有不小的差距。神经网络还不能完全避免在某些时候出现一些怪异（甚至错误）的判断，更何况其训练样本还远远不足。这也是为什么有了价值网络还仍然需要依靠快速走棋来判断局势。大家都曾经怀疑过AlphaGo的打劫能力，也感觉到了AlphaGo有躲避打劫的迹象。实际上南京大学的周志华教授曾经撰文指出打劫会让价值网络崩溃的问题，原理不再重复。不能说AlphaGo不会打劫，而是害怕在棋局早期的多劫并存。即，打劫要乘早，太晚了搜索空间变小，即便价值网络失效，还可以靠快速走棋网络来弥补。开劫应该以在刚刚进入中盘时期为好（太早劫财还不够），并且保持长时间不消劫，最好在盘面上能同时有两处以上打劫。没有了价值网络的AlphaGo其实水平也就职业3-5段左右。

AlphaGo

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

暂无相关数据

图文详解AlphaGo的原理及弱点

ATX电源电路分析详解开关电源的原理

《LED灯具设计与案例详解》pdf

LA-650原理图文档下载

系统方框图资料详解

简述DELL R710服务器做RAID5磁盘阵列图文教程

第六课 数控机床电路详解

详解SUNLORD顺络LED照明

无线充电技术(四种主要方式)原理与应用实例图文详解.

开关电源的工作原理及电路组成详解

FPGA设计中DAC控制的Verilog实现图文稿

开关电源原理及输入电路详解

图文详解：无刷电机的绕制和接线方法

Linux系统中EXP命令详解质量汇总

图文详解：从零开始学电源资源下载

图文教程：51端口结构及工作原理

基于单片机的红外遥控风扇图文教程资源下载

图文并茂，PLC与7种设备的连接方式资料下载

Power BI服务所包含的信息及数据详解

PCB覆铜要点和规范，图文概要资料下载

图文详解汽车仪车规级安全设计要求资料下载

BLE实验详解之蓝牙温度计设计方案

BLE实验详解之蓝牙血压计设计方案

自动控制原理习题详解第二版下载

苹果iPhone 6SP相关线路详解

图文详解：信号的时域和空域特性

160128LCD图文演示的仿真电路图免费下载

PLC可编程控制实例图文详解

触摸屏接线法的详细图文讲解

IC的封装形式详细图文简介

51单片机的运行过程详细图文详解

LED搭接光立方点阵的图文详解

商汤SenseNova U1图文交错增强版开源，支持多页连续创作

商汤科技日日新SenseNova U1图文交错增强版模型的核心突破

图文详解 I 十大电源拓扑与架构设计核心

数字滤波算法的在线电弱点测试仪：复杂电路环境下的干扰信号剔除与检测精度提升

电弱点测试仪抗干扰技术突破：电磁兼容性能提升路径

图文详情编辑接口的设计与实现

图文详情编辑接口

薄膜电弱点测试仪的常见问题及解决方案

ISO 11452-8 标准下，AS5x47y 如何破解竞品传感器的磁场 “弱点”？

在锂电池生产中，隔膜电弱点测试仪有什么重要作用？

除了电线电缆，还在哪些领域会用到电弱点测试仪

详解汽车LED的应用和封装

WAT技术详解

图文并茂：详细解析无刷电机EMI整改？|深圳比创达EMC（上）

物理设计中的问题详解

图文详解ModbusTCP协议

图文介绍国外电动汽车三合——电驱系统

简单介绍图文分析报告的制作方法

图文详解KUKA与西门子PLC的通信连接

WAV怎么转换成MP3，图文详解音频转换技巧

揭秘中兴Axon20屏下摄像的五大秘密

Google研发人工智能机器人AlphaGo以4即将诞生

图文详解：为什么HTTPS是安全的

图文详解：C++的输出输入

图文详解：C++虚表的剖析

Prelink的交叉编译和使用详解

DeepMind宣布将研发更智能的AlphaGo算法

樊麾再次负于AlphaGo，以0：5完败于人工智能

动力电池或将成为电动汽车的致命弱点

67张图详解高压开关柜，超详细！

下载排行榜

第六课数控机床电路详解