强化学习环境研究，智能体玩游戏为什么厉害

zhKF_jqr_AI 2018-08-18 3399

电子说

1.2w人已加入

描述

强化学习作为一种常用的训练智能体的方法，能够完成很多复杂的任务。在强化学习中，智能体的策略是通过将奖励函数最大化训练的。奖励在智能体之外，各个环境中的奖励各不相同。深度学习的成功大多是有密集并且有效的奖励函数，例如电子游戏中不断增加的“分数”。然而，设计一个良好的奖励函数需要付出大量精力。另一种方法是生成内部奖励，即由智能体自身生成的奖励。内部奖励包括“好奇心”（把预测错误当做奖励信号）和“访问数目”（不鼓励智能体访问同样的状态）。这些内部奖励正是为了填补稀疏的外部奖励之间的空白。

但是，如果某个场景没有任何外部奖励怎么办？这并不奇怪。发展心理学认为，内部奖励（例如好奇心）是发展早期的重要驱动力：婴儿在探索世界时并不会带有过多的目的。的确，有证据表明，在某一环境中只用内部奖励对智能体进行预训练可以让它们在新环境、新任务中调整得更快。但目前为止，目前还没有系统的针对完全内部奖励学习的研究。

在这篇论文中，我们对各类模拟环境中智能体的内部奖励进行了大规模实证研究。特别是我们选择了Pathak等人提出的动态好奇心模型中的内部奖励，因为它可扩展，并且可并行计算，可以说是大型试验的理想工具。研究的核心是给定智能体当前的状态，观察内部奖励会在预测下一个动作时出现哪些错误。在研究中我们一共调查了54种环境：包括电子游戏，物理引擎模拟和虚拟3D导航任务。如图1：

图1

为了更好地理解好奇心驱动的学习，我们接着研究了决定其表现的关键因素。在高维原始观察空间中（例如图像）对未来状态做预测是非常有挑战性的工作，而且最近的研究表明，在辅助特征空间中的动态学习有助于提升结果。不过，如何选择这样的嵌入空间非常重要，目前还没有确切的结论。经过系统的研究，我们检查了对智能体观察的不同编码方法有何作用。为了保证训练的稳定性，我们需要选择好的特征空间，一个好的特征空间可以让预测更容易，并且过滤掉与观察环境无关的因素。但是对好奇心驱动的特征空间来说，都需要有哪些特征呢？

紧凑：在较低维度并且过滤掉与观察空间不相关的部分之后，特征会更容易建模。

高效：特征应该包含所有重要的信息。否则，智能体在探索到相关信息后不会得到奖励。

稳定：非静态奖励让强化智能体学习起来有了难度。在基于动态的好奇心驱动环境中，非静态的来源有两个：前动态模型随着时间不短发展，因为它在训练时特征也在发生变化。前者是内部的，而后者应该尽量减小。

我们发现，在很多流行的强化学习中，用随机网络对观察内容编码是非常简单且高效的技术。有趣的是，我们发现虽然随机特征可以在训练中表现良好，但是学习过的特征似乎比它更好。

除此之外，我们发现重要的一点是，游戏会将“done”作为结束的信号。如果没有这一结束信号，很多雅达利游戏就变得很容易。例如，如果智能体活着，那么每一步的奖励就是+1，如果死了就是0。比方在“打砖块”游戏里，智能体要尽可能“活”得长一点，保持较高分数。如果得到了负奖励，智能体会尽可能快速结束游戏。

知道了这一点，我们在研究时就不应该对智能体抱有偏见。在有限的设置中，避免死亡只是智能体的另一种应对方式，它只是为了不那么无聊。所以我们删除了“done”，将智能体的得分与死亡信号分离开。实际上，我们的确发现，智能体在游戏中避免死亡是因为从游戏开头总能遇到很多重复场景，它们已经能很好地预测下一步动作了，所以智能体会尽可能保持“生存”。这一发现在此前是被忽略的。

实验

对48种雅达利环境进行分析的主要目的有三：

在没有外部奖励的游戏中，运行一个完全靠好奇心驱动的智能体时究竟发生了什么？

你能让智能体做出哪些行为？

这些行为中，不同的特征学习变量有哪些影响？

为了回答这些问题，我们从一系列雅达利游戏开始。一种检验完全使用好奇心的智能体表现得如何的方法是看它能获得多少外部奖励。我们最终得到了8种游戏的平均外部奖励分数（除去最右的马里奥）：

可以看出，大多数曲线都呈上升趋势，这说明一个完全靠好奇心驱动的智能体可以通过学习获得外部奖励，即使没有在训练时运用外部奖励。

除此之外，我们还在上图中比较了马里奥兄弟不同的特征学习表现。更多实验结果请查看原论文的附录。

讨论

在这项研究中，我们对好奇心驱动的强化学习环境做了大量研究，包括雅达利游戏、超级玛丽兄弟、虚拟3D、多人乒乓球等。其中对多种不同的特征空间进行了调查，包括随机特征、像素、逆向动力学以及自动编码器，并且评估了它们对陌生环境的泛化能力。

我们证明，经过训练的智能体可以靠好奇心奖励学习到有用的行为，它们可以不用奖励玩雅达利游戏；马里奥可以在没有奖励的情况下过11关；可以生成行走和玩杂技的动作；在双人对战的乒乓球游戏中可以生成对打模式。但是这也不总是成立的，在某些雅达利游戏中，它们的探索与外部奖励不符。

另外，这一结果也证明了，在由人类设计的环境中，外部奖励的目的可能是让目标物体进行创新。游戏设计者创建的环境正是为了引导用户。

但是，这里存在一个比较严肃的潜在限制是处理随机动态，如果环境的转换是随机的，那么即使有一个完美的动态模型，奖励也会成为过渡熵，智能体将会寻找熵值较高的过渡转换。即使环境不是完全随机的，不了学习算法造成的不可预测性、不良模型类别或局部观察也会导致同样问题。

未来，我们将证明我们可以利用无标签的环境来提高任务的性能。

打开APP阅读更多精彩内容