OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终

DPVg_AI_era 2018-08-24 5197

电子说

1.3w人已加入

描述

刚刚，OpenAI Five在Dota2最受关注的国际竞赛TI8中进行了首场表演赛，对战职业玩家队伍paiNGame，也是TI8中最先被淘汰的一支队伍，然而却饮恨惜败。双方经过激烈对战，AI在操控速度和团队支援方面远远超过人类，但对于技能的释放和兵线的理解还有很大提升空间。

OpenAI Five，输了。

此前以惊人的速度不断进化，并且成功碾压Dota2准职业玩家后，OpenAI Five剑指TI8，挑战现役职业人类玩家，并于刚刚结束了首场与人类的对战。

51分钟的时间里，OpenAI Five虽然在控制速度和团队支援上远超人类，但金币数量只有一次稍稍领先，说明对英雄技能的释放以及兵线的理解还有待提高。

OpenAI Five 在DOTA2 5V5团队战中战胜Top 05%玩家，让好多研究强化学习的人激动了一把，更何况还有比尔·盖茨的那句评价：“这是人工智能发展历史上的一座重大里程碑”。

因此，对于这次在TI8的首场对战，可谓吸足了眼球。

战火一触即发！

第一场演示赛，OpenAI Five对战人类职业玩家队伍paiN Game。

这是Pg的现役队员

虽然pg是18支参赛队伍中最弱的一队（最先被淘汰），但不要忘了，这相当于参加奥运赛短跑决赛中跑得最慢的那一位，也是人类的强中之强啊。

这次对战，OpenAI选择的英雄分别是：潮汐猎人、矮人直升机、水晶室女、死亡先知、巫妖。PG这方则选的是：莱恩、瘟疫法师、巫医、狙击手和斧王。

一上场，OpenAI的兵线就比当时Benchmark赛的时候更加靠前，这是因为从5个信使变成了1个。

根据对战前的预测，大部分投票者还是认为人类会赢（55%）。这或许也是OpenAI团队怀着忐忑心情上场的原因。

实际战况开始双方势均力敌，在地图各处都在开打，难分难解，但开场20分钟后，OpenAI Five就推倒了两座塔，不过双方的伤亡几乎差不多。

几分钟后，OpenAI首次在金币总量上超过了PG一点点，然后逐渐获得优势，23杀vs18，OpenAI Five要领先2k。

如果你以为AI就会这样获胜，那么就想错了！

OpenAI的英雄DP总喜换守在Roahn那里。不朽者Roshan是Dota 2中最为强大的中立生物，他是游戏中首个生成的单位，在比赛载入完成后即会出现，并且是唯一随着时间成长的NPC。

OpenAI Five研究人员表示，DP守在Roshan那里，是因为要确认具体位置，这是训练时Roshan随机化的一个副作用，AI控制的英雄不知道Roshan会从哪里出现，因此就喜欢守在那里确认。

至于人类这边，坦白说，斧王一直表现不好，AI虽然在整体执行力、控制技能释放以及保命道具使用上远超人类，但对于游戏的理解、兵线的牵扯以及大招的释放还有待提高。

兵线对于游戏是很重要的，如果是人类这边进行更多带线牵扯，AI可能会提前10分钟被推掉高地。

也很明显能看出来，PG并没有认真去对战。OpenAI这边的C位是飞机，但在买活死亡后且复活时间有100多秒，而人类这边一直在AI的高地下玩，这段时间本是可以推下至少一路高地的。

一直到游戏结束，AI这边人头数量都是超过PG战队的，说明AI团战和支援的速度更强，但是人类这边经济始终没有落后太多并在取得优势的情况下，迅速拉开经济差，说明现役职业玩家在DOTA2的资源分配和对兵线的理解上，仍然是人类的希望。

OpenAI Five训练：从简单的操作中学到专业级的策略

1、OpenAI FIVE是如何工作的？

OpenAI Five是一个由5个人工神经网络组成的队伍，可以把它想象成一个模拟的“大脑”，是专门为学习Dota而设计的。OpenAI Five将世界看作一个包含20000个数字的列表，这些数字对可见的游戏状态（仅限于人类玩家被允许看到的信息）进行编码，并通过发出8个数字的列表来选择一个动作。

OpenAI团队编写的代码在游戏状态/操作和数字列表之间进行映射。一旦经过训练，这些神经网络就是纯粹本能的生物——它们的神经网络实现了记忆，但不会进一步学习。OpenAI Five虽然是一个团队，但并没有设计特殊的沟通、交流结构，只提供他们一种激励（incentive）。

2、OpenAI Five的训练过程

OpenAI Five的神经网络从随机参数开始，使用通用的训练系统Rapid来学习更好的参数。Rapid拥有OpenAI的5个游戏副本，此前的报道中也提到过，OpenAI Five每天通过成千上万的并发游戏生成180年的游戏数据，使用了128,000个CPU内核和256个GPU。

在每个游戏框架中，Rapid会计算出一个数值奖励，当有好事发生时（比如一个盟军英雄获得了经验）是正数，当有坏事发生时（比如一个盟军英雄被杀）是负数。而后Rapid应用近端策略优化（Proximal Policy Optimization）算法来更新神经网络制定动作的参数。

3、TAKEAWAY

就像人类在规划一天的生活时不会计划肌肉运动一样，OpenAI社区(包括OpenAI)也期望通过长期规划来获取算法，以此来解决短期和长期的计划，可能通过强化学习得以突破。

尽管OpenAI Five的底层算法非常简单，但在没有提供任何人工数据的情况下，它从简单的操作中可以学到专业级的策略。

OpenAI DOTA进化时间线：只用1年，从1v1到5v5！

2016.11.05 OpenAI选择将Dota作为要攻克的目标，因为这是Twitch在Linux上最受欢迎的游戏，并且有API。

2016.11.09 OpenAI首次在Dota库中提交。

2017.03.09 首先在Rapid库中提交。

2017.08.11 OpenAI在Dota国际竞赛TI7中，1v1战胜了顶级Dota 2职业玩家Dendi。

2017.09.07 OpenAI在Dota 2 1v1普通模式（normal gameplay）首次战胜了职业玩家，后续又有十几个职业玩家与其挑战，对战了上千次。

2018年1月在特定有限条件下（只有5位固定英雄，没有守卫，不能隐身等），OpenAI Five战胜了脚本bot。

2018年4月 OpenAI Five在有限制的情况下，战胜了OpenAI自己组建的半职业人类玩家队伍（双方阵容固定而且一样的：NEC，火枪，毒龙，冰女，巫妖；不能插眼；没有肉山；不能用隐身道具；不能使用召唤物和幻象；没有圣剑，瓶子，补刀斧，飞鞋，知识之书，魂泪；5只不能被攻击的信使；不能扫描），被比尔·盖茨称之为“人工智能的一大里程碑”。

2018.06.06 OpenAI Five战胜了OpenAI自己组建的队伍，这次的游戏限制相比上次少了一些。很多DOTA 2玩家表示，插眼和肉山非常重要，如果排除这些因素，对战并不公平。所以，OpenAI Five学会了插眼与打肉山。

2018.08.05 OpenAI在全球10万+观众的直播见证下，战胜了Dota 2 Top 0.5%的玩家（Blitz、Cap、Fogged、Merlini和MoonMeander，其中有四人是Dota2前职业玩家），创造了OpenAI Five Benchmark。这次的胜利解除了一些限制，比如英雄池有18个可供选择，将AI时间调整为更接近人类的200ms。更详细的介绍可以看此前新智元的报道。此前，很多评论员认为实现这一进步至少需要一年的时间，但OpenAI用差不多一个月就做到了。

2018.08.20 OpenAI被指责不是通过机器视觉而是游戏API获取数据，而人类玩家仅通过“看”来判断，因此AI得出的结果和测距更加精准，从而也更具优势。但OpenAI在赛前便公开所有条件，并不能称“作弊”。

2018.08.22 OpenAI Five在Dota2国际竞赛TI8中进行首次对战，对战现役职业玩家队伍Pain Game（是TI8中第一支被淘汰的队伍），虽然人头数一直领先，但最终不敌对手，首场比赛以失败告终。

打开APP阅读更多精彩内容