强化学习新方法，机器人究竟是怎么学习新动作的呢？

天津机器人 2018-04-13 9542

波士顿动力人形机器人的后空翻技能亮相时，惊艳了全球群众。

这么复杂的动作，不用说现实世界中的机器人，就算是在模拟器里，学起来也非常的难。

现在，加州大学伯克利分校和英属哥伦比亚大学最新研究的一种新方法，能教生活在模拟器中的机器人通过模仿人类，学会武打、跑酷、杂技等复杂技能。

后空翻回旋踢什么的，轻轻松松搞定~

（下文还会提到很多次“机器人”，基本都是生活在模拟器里的这种）

让机器人、动画和游戏角色能灵活流畅地运动，是计算机图形学、强化学习、机器人等等领域的研究者都在追求的目标。

不同方法各有所长，当然也各有所短。

用强化学习方法教机器人（模拟器里的智能体），能学会的动作花样繁多，细致到拿东西、豪放到奔跑都能搞定，还可以给机器人设置一个明确的目的。但是，总难免上演一些羞耻或惊喜play。

而动作捕捉技术，能让机器人做出和真人一模一样，自然流畅毫无违和感的动作。但是，活学活用是不能指望的，每个动作、每个形态的机器人，都是需要单独训练的。

伯克利的科学家们取这两个领域所长，创造了一种新方法DeepMimic。这种方法既有深度学习模型的通用性，可以覆盖更多的动作类型和机器人形态，动作的自然流畅程度也可以媲美动作捕捉。

用这种新方法，机器人究竟是怎么学习新动作的呢？

简单来说是通过看动作片段来学习，人类的动作捕捉数据就是个很好的学习资料。给机器人展示一个动作样本，比如说下图这个侧空翻，右侧就是供机器人学习的示范样本。

参与这项研究的科学家们将示范动作分解成一个q^0,q^1,…,q^T的序列，q^T表示的是在机器人在t时间步的目标动作。而这个机器人学习的目标，就是要尽可能消灭t时间步的实际动作qT和目标动作q^T的差距。

机器人勤劳地不停练习练习练习，直到自己的动作不再羞耻，灵活性和仿真度能够媲美演示视频，像上图左侧那样。

指导这个练习过程的，是这样一个奖励函数：

除了空翻，用这种方法教出来的机器人还能学到中西舞蹈、南拳北腿、跑步打把势甚至鲤鱼打挺：

对着完美的动作捕捉样本，再copy一遍，有什么意思？这项研究当然不止于模仿。DeepMimic能让机器人通过模仿学会动作之后，再活学活用起来。

比如当一个机器人学会了投球，就可以去执行一个演示样本中没有的任务。我们可以在模拟器中，指定一个目标让它来投：

训练的机器人，也可以长得和演示样本不太一样。比如说还是用前边的后空翻样本，可以训练一个模拟波士顿动力Altas的机器人：

甚至不是人形的机器人，也可以用人形样本来训练。比如说这头霸王龙，就是跟人形样本学习的走路。在论文的主页上，他们还展示了更多的例子，甚至还有狮子和龙~

打开APP阅读更多精彩内容