OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流

zhKF_jqr_AI 2018-03-16 13998

电子说

1.2w人已加入

描述

智能体（agent）互相争夺资源的多智能体环境是通向强人工智能（AGI）的必经之路。多智能体环境具有两种优越的特质：首先，它具备自然的考验——环境的难易程度取决于竞争对手的技能（如果你正与自己的克隆体对抗，环境则完全符合你的技术水平）。其次，多智能体环境没有稳定的平衡，即无论一个智能体多么聪明，想变得更聪明总是有困难的。这种环境与传统模式有很大的不同，在达到目标之前需要进行更多研究。

OpenAI开发了一种名为MADDPG（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments）的新算法，用于实现多智能体环境中的集中式学习和分散式执行，让智能体学习互相合作、互相竞争。

用MADDPG算法训练四个红色圆点追逐两个绿色圆点，红色圆点已经学会彼此合作追逐同一个绿色圆点，以获得更高的奖励。与此同时，绿色圆点学会了“分头行动”，其中一个被红点追逐，其他的则试图接近蓝色圆点获得奖励，同时避开红色圆点

MADDPG对强化学习算法DDPG进行扩展，从actor-critic（玩家-评委）强化学习技术中获得灵感；其他团队也正探索这些想法的变体和并行实现。

研究人员将模拟中的每个智能体看作“actor”（玩家），每个玩家从评委那里获得建议，让它们在训练过程中选择应该加强哪些动作的训练。在传统环境中，评委尝试预测在某一特定情况下一种动作的价值（即我们期待未来获得的奖励），从而让玩家更新策略。这种方法比直接使用奖励更稳定，奖励会导致较大的差异。为了能让智能体进行全局合作，研究者改进了评委，使它们能够访问智能体的观察和行动，如下图所示。

测试时，智能体无需具备中间的评委；它们根据观察以及对其他智能体行为的预测，做出动作。由于一个中心化的评委是为每个智能体独立学习的，这种方法也可以用来模拟多智能体之间的任意奖励结构，包括拥有相反奖励的对抗案例。

OpenAI研究者在多个任务上测试了他们的方法，结果均优于DDPG上的表现。在上图的动画中，从上至下可以看到：两个智能体试图前往特定位置，并且学习分散，向对手隐藏真实的目的地；一个智能体将位置信息传递给另一个智能体，其他三个智能体协调前往此处，并且不会碰撞。

使用MADDPG训练的红色圆点比用DDPG训练的智能体行为更复杂。在上面的动画中可以看到，用MADDPG技术训练的智能体和用DDPG训练的智能体都试图穿过绿色的圆圈追逐绿色的小圆点，同时不撞到黑色障碍物。新方法训练出来的智能体抓到的绿色圆点更多，也比用DDPG方法训练出的动作更协调。

传统强化学习的困境

传统的分散式强化学习方法，如DDPG、actor-critic学习、深度Q学习等，都难以在多智能体环境中学习，因为在每个时间段，每个智能体都要尝试学习预测其他智能体的行为，同时还要分析自己的行为。在竞争的情况下尤其如此。MADDPG采用集中的critic为智能体提供有关同类的观察和潜在行为的信息，将不可预测的环境转化为可预测环境。

使用梯度策略的方法会带来更多挑战：因为当奖励不一致时，这种方法所得到的结果差别很大。另外，在提高稳定性的同时，增加critic仍然不能解决一些环境问题，例如合作交流。这样看来在培训期间考虑其他智能体的行为对于学习协作策略是很重要的。

最初的研究

在开发MADDPG之前，当使用分散技术时，研究人员注意到如果speaker所发出的关于去哪里不一致的消息，那么listener常常会忽略speaker，智能体将把有关speaker的所有权中设置为0。一旦发生这种情况，就很难恢复训练，因为没有任何反馈，speaker永远不会知道自己所说是否正确。为了解决这个问题，他们研究了最近一个分层强化学习项目中所提到的技术，该技术可以让强制让listener在决策过程中考虑speaker的消息。这种修复方法并不奏效，因为它虽然强制listener关注speaker，但并不能帮助listener决定说出什么相关的内容。通过帮助speaker学习哪些信息可能与其他智能体的位置信息有关，集中式的critic方法有助于应对这些挑战。想了解更多结果，可点击视频观看：

下一步

智能体建模在人工智能的研究中已经有了丰富的成果，但之前的很多研究都只考虑了短时间内简单的游戏。深度学习能让我们处理复杂的视觉输入，强化学习为我们提供了长时间学习行为的工具。现在我们可以用这些功能一次性训练多个代理，而无需了解环境的变化（即环境在每个时间段发生的变化），我们可以解决更广泛的包括交流和语言的高维度信息，同时从环境的高维信息中学习。

打开APP阅读更多精彩内容