电子说
同队炸弹人联手,在对手的两侧放炸弹围堵,将其困在中间地带后摧毁对手
由谷歌大脑、Facebook、牛津大学和NYU等联合举办的NeurIPS首届多智能体竞赛中,中国团队取得Learning组冠军。基于启元智能决策平台训练的获胜智能体,训练过程没有人工干预,体现了自动调参体系的有效性和鲁棒性,以及强化学习技术的价值。
近日,国际人工智能顶级大会NeurIPS2018顺利落幕。8000多位来自全世界的人工智能研究人员齐聚加拿大蒙特利尔,讨论分享过去一年全世界在人工智能的各个领域的最新进展。
该会议举办了一系列竞赛来鼓励学术界和工业界一起解决最有挑战性的人工智能难题。作为人工智能领域历史最悠久的学术会议之一,会议成果被视作人工智能领域的研究“风向标”。
NeurIPS首届多智能体竞赛,中国团队展现世界实力
其中,由谷歌大脑、Facebook、牛津大学及在游戏AI界久负盛名的纽约大学等机构联合举办多智能体竞赛——炸弹人团队赛(The NeurIPS 2018 Pommerman Competition)尤其引人瞩目。
多智能体竞赛-炸弹人团队赛
来自中国启元世界的彭鹏博士、中科院计算所助理研究员庞亮博士和北师大的袁钰峰组成的赛队,与美国、欧洲、日本、中国的24支一流队伍进行了激烈角逐。
最终,基于启元决策智能平台训练的Navocado双智能体能力稳定提升,夺得了Learning组冠军,展现了来自中国的决策智能团队具备的世界级技术实力。
启元世界是一家2017年成立的以认知决策智能技术为核心的公司,由前阿里、Netflix、IBM的科学家和高管发起,并拥有伯克利、CMU等知名机构的特聘顾问。团队核心能力以深度学习、强化学习、超大规模并行计算为基础,拥有互联网、游戏等众多领域的成功经验。
炸弹人游戏:考验多智能体协作、非完全信息博弈、持续学习等关键技能
决策智能目前是一个世界级的技术难题,决策过程也是人脑中最复杂的一种功能。
由于在游戏、交通、电力等领域具备极大的应用前景,决策智能近年也成为全球人工智能研究的热点,DeepMind、Facebook、OpenAI、微软、亚马逊等科技巨头都成立了实验室进行相关研究。
相较于单智能体,多智能体博弈的难度更是指数级增加。此次NeurIPS多智能体竞赛是NeurIPS会议上首次开设多智能体竞赛,将多智能体协作、非完全信息博弈,以及持续学习等关键问题浓缩到《炸弹人》这款游戏中,鼓励全世界优秀的研发人员一起参加解决技术挑战。
竞赛采用激烈双淘汰机制 (Double Elimination),25支参赛队分别提供2个智能体参加2v2对抗赛。参赛队伍的每个智能体初始都被困在一个封闭的区间中,智能体只有炸开附近的木箱才能进去其他区域。在几乎所有障碍物都被清理干净后,智能体进入到对抗阶段,所有智能体都可以自由地在全局活动,这个阶段智能体的主要目标就是炸掉对手。
炸弹人学会准确炸箱子,并且通过最短路径寻路吃增强药
竞赛过程中智能体需要完成的任务包括:
1)清除障碍物,
2)躲避自己的炸弹火焰(智能体处于封闭区域),
3)收集装备,
4)躲避自己和其他人的炸弹火焰(智能体相互对抗阶段),
5)放炸弹杀死对手,
6)避免放炸弹杀死队友。
整个过程,对智能体有效甄别和提取有效信息,同时对未知信息进行推理和假设,以及多智能体协作都提出了很高的技术要求。
炸弹人主动将炸弹朝对手方向踢出,精确击溃对手
每个赛队线下有2个月的时间进行模型训练。最终,基于启元决策智能平台训练的Navocado战胜了来自加拿大的Skynet,拿下Learning组冠军。Skynet的团队来自加拿大近百人规模的科技公司Borealis.ai。
获胜关键:分阶段自适应调参与奖励塑性
从对战过程来看,启元的Navocado智能体的主动进攻能力明显强于对手。
从Skynet在官网公开的实现方案来看,Skynet模型在决策过程中加入了很多人工干预(比如限制炸弹人不能往火焰里走),这和Navocado模型在整个训练和决策过程中不加人工干预、自主学会各项技能的方式也有较大的差距。
NeurIPS多智能体竞赛终局:第600步(视频中最下栏显示),Navocado控制的一个炸弹人(黑色脸谱)在最正确的时机使用踢炸弹的方式将Skynet的一个炸弹人(白色脸谱)炸死。来源:启元世界
视频中展示的是Navocado和Skynet争夺学习组冠军的最后一战。其中,两个黑色脸谱的炸弹人属于Navocado,而两个白色脸谱的炸弹人属于Skynet。
从视频中可以看到,Navocado能够在不产生多余步数的情况下,准确地炸开木箱和收集装备,而Skynet在这两方面就做不太好。这也是这局比赛后期Navocado能够占据主导的原因。
在第600步(视频中最下栏显示),Navocado控制的一个炸弹人在最正确的时机使用踢炸弹,将Skynet的一个炸弹人炸死。在视频最后,Navocado控制的另一个炸弹人,同样通过踢炸弹的方式终结对手。
Navocado的内核模型是A2C,但是其最大的亮点在分阶段自适应调参和奖励塑型的过程。由于问题的复杂性,普通的训练方式很难满足Navocado长期成长的需求。
Navocado团队介绍,他们的设计主要基于元学习的思想,将超参搜索 (Hyperparameter Search) 的过程由人工调参转变为自动调参。这一技术在AlphaGo的调优过程和Google的AutoML系统中都明显的体现。
传统的超参搜索主要有两种模式:并行搜索和序列化搜索。其中,并行化搜索对计算量要求高,而且效率并不出众;而序列化搜索则更是需要大量的人工干预,优化效果并不稳定。
但是,在Navocado的训练过程中,团队通过基于群体竞技的方式找出最优的超参,从提高算力使用效率和减少人工干预的角度。
Navocado智能体持续训练过程中的效果提升曲线
technical report的链接: https://arxiv.org/abs/1812.07297
启元智能决策平台,体现强化学习技术价值
强化学习作为决策智能的核心技术,也是极具挑战的一种机器学习方法。由于强化学习涉及到的链路很长,而强化学习算法本身对超参十分敏感,学术界中各人不同的实现或配置,都很容易导致出现训练结果不可复现的现象。强化学习技术在可复现性、可复用性和鲁棒性方面存在着挑战。
启元从2017年起打造的决策智能平台,在这次赛事夺冠的智能体训练中起到了关键作用。启元决策智能平台搭建了支持多智能体博弈的基础架构,能够通过竞技的方式实现多智能体持续学习的能力。平台还支持包括自动化资源调度和自动调参的元学习,使得模型训练更加高效。
启元世界彭鹏博士介绍,“启元团队对强化学习这个领域都很有Passion。这次我们在NeurIPS多智能体竞赛夺冠的智能体,在每个阶段的训练过程没有人工干预,学习曲线非常漂亮,进一步验证了这套体系的有效性和鲁棒性,验证了强化学习技术的价值。”
在使用启元决策智能平台的过程中,赛队可以快速地调度所需资源进行任务部署,配置对战所需的智能体,并且在训练过程实时观察不同模型的对战情况和胜率曲线,从而做出最快的调整。
图3:启元决策智能平台架构
在此次NeurIPS多智能体竞赛中,启元决策智能平台提供了三大助力:
第一,支持智能体持续学习的能力。
持续学习的能力是智能体训练中关键的一环。在训练阶段,炸弹人竞赛中的智能体需要在学习新技能的过程中保留过去学会的技能,才能达到很高的水平。启元决策智能平台通过智能体群体匹配竞技的方式实现“自然选择”,从而达到持续学习的效果。在竞技过程中,强者留存,弱者被淘汰。在弱者被淘汰之后,空出来的位置被强者的克隆体代替,而强者的克隆体则根据新的超参设定持续进化。在固定计算资源预算的情况下,启元决策智能平台通过这套机制在探索新强者 (exploration) 和深挖旧强者 (exploitation) 之间平衡对计算资源的使用情况。
第二,支持复杂场景的多智能体联合训练。
在多智能体博弈问题中,不同智能体之间的相互克制较为常见,其收敛可能性极为复杂。在炸弹人竞赛中,不同队伍的智能体风格迥异,有的善攻,有的善守。基于“鲶鱼效应”的思想(指透过引入强者,激发弱者变强的效应),启元决策智能平台在训练初期引入基于规则的高阶对手,激发初期较弱的智能体在与强者的对决中学会各种基本技能,迅速提升变强;随着训练阶段的深入,启元决策智能平台同时训练多个智能体,使其在激烈的相互对抗中完善自我。
第三,支持基于私有云集群的大规模、高并发的模拟和大规模训练。
启元决策智能平台将架构图中所示的多个模块进行组件化,并封装到了容器中。通过云端自动化的方式管理数百CPU以及GPU资源并实现容器编排,降低了调度数十个炸弹人训练任务的成本。大规模、高并发的模拟计算以及大规模的训练同时在私有云集群中进行。另外,启元决策智能平台提供分布式存储方案,并配置成共享模型池,为炸弹人智能体模型群体的持久化和共享提供支持。
启元决策智能平台v0.8版本目前已用于游戏、网络智能及仿真等场景中。基于为客户提供的高附加值服务,启元世界在2018年商业化上小试牛刀,即已取得不错的营收。
2019年,启元世界计划发布第一版启元决策智能平台型产品,为更多行业客户、终端用户带去高体验的服务。
全部0条评论
快来发表一下你的评论吧 !