DeepMind刚向星际争霸 II 的玩家们下了战书!

Hf1h_BigDataDig 2019-07-12 2419

电子说

1.4w人已加入

描述

欧洲的星际争霸玩家们即日将有机会和Deepmind AI打场比赛了！

出战的AI是由DeepMind和暴雪联合培养的，经过了“特别的训练方式”，在星际争霸界 II 早有过赫赫战绩，连续在10场比赛中击败了人类职业选手。

其实，在今年年初的那次交锋总共有11场比赛，只有全球直播现场交手那一次，由于比赛限制了AI的“视觉”能力，MaNa帮人类赢了一场。

另外10场比赛，代表人类出战的是职业选手TLO和MaNa。两位选手分别与AlphaStar打了五场。如果说与TLO对战时AlphaStar还是萌新的话，那么与MaNa的对战则完全显示出了其战术的老辣。毕竟，两个比赛才相隔2周，AI 自学成才的能力已经初步显示了可以超越人类极限的潜力。

AlphaStar VS TLO

那次输给AI后，不少星际争霸 II 的人类玩家都跃跃欲试，希望能亲自挑战AI，但只有少数职业玩家有权与AI对抗。

直到今天，星际争霸官方发推表示，欧洲区星际争霸 II 的玩家，将有机会在限定时间内与 DeepMind 的Alphastar人工智能对抗。

你的对手可能是只AI，而你毫不知情

作为正在进行的人工智能研究的一部分，DeepMind 星际争霸 II 代理商 AlphaStar 的实验版本很快将在欧洲竞争激烈的平台上与人类玩家对抗。

在官方“战书”中，Deepmind表示，如果你希望有机会和DeepMind 与 AlphaStar 打匹配，你可以点击游戏内部弹出窗口上的"选择加入"按钮进行选择。你可以随时使用1v1 Versus 菜单上的"DeepMind opt-in"按钮来改变你的选择。

为了确保测试数据的真实，玩家不会被告知他们正在和阿尔法星人工智能对抗。因为当玩家知道自己在对抗AI时，他们的反应可能会有所不同。玩家可能会参与社区中所谓的"奶酪策略"，而 AI 可能还没有准备好。

从本质上讲，"奶酪策略"是一种非常规的战略，旨在让对手措手不及。这些游戏不会被纳入AlphaStar的训练中，系统只能从人类回放和自我对战中学习。

AlphaStar是如何训练的？

DeepMind也在今天的博客中描述了AlphaStar的训练方式。

AlphaStar是由一个深度神经网络生成的，它接收来自原始游戏界面的输入数据，并输出一系列指令，构成游戏中的一个动作。更具体地说，神经网络体系结构将transformer框架运用于模型单元(类似于关系深度强化学习)，结合一个深度LSTM核心、一个带有pointer network的自回归策略前端和一个集中的值基线。这种先进的模型将有助于解决机器学习研究中涉及长期序列建模和大输出空间(如翻译、语言建模和视觉表示)的许多其他挑战。

AlphaStar还使用了一种新的多智能体学习算法。该神经网络最初是通过在Blizzard发布的匿名人类游戏中进行监督学习来训练的。这使得AlphaStar能够通过模仿学习星际争霸上玩家所使用的基本微观和宏观策略。这个初级智能体在95%的游戏中击败了内置的“精英”AI关卡(相当于人类玩家的黄金级别)。

OMT: 知己知彼，百战百胜？

最后，其实就在上周，一个由澳大利亚开发人员、机器学习工程师和研究人员组成的团队——StarAi就基于星际争霸的人机对抗开发了一个机器学习课程，并且在线免费发布，只用浏览器就能学！不如先去了解一下你的对手，再来试试看胜算有多大呀！

打开APP阅读更多精彩内容