强化学习新方法,机器人究竟是怎么学习新动作的呢?

天津机器人 发表于 2018-04-13 11:00:32 收藏 已收藏
赞(0) •  评论(0

强化学习新方法,机器人究竟是怎么学习新动作的呢?

天津机器人 发表于 2018-04-13 11:00:32 收藏

波士顿动力人形机器人的后空翻技能亮相时,惊艳了全球群众。

这么复杂的动作,不用说现实世界中的机器人,就算是在模拟器里,学起来也非常的难。

现在,加州大学伯克利分校和英属哥伦比亚大学最新研究的一种新方法,能教生活在模拟器中的机器人通过模仿人类,学会武打、跑酷、杂技等复杂技能。

后空翻回旋踢什么的,轻轻松松搞定~

(下文还会提到很多次“机器人”,基本都是生活在模拟器里的这种)

让机器人、动画和游戏角色能灵活流畅地运动,是计算机图形学、强化学习、机器人等等领域的研究者都在追求的目标。

不同方法各有所长,当然也各有所短。

用强化学习方法教机器人(模拟器里的智能体),能学会的动作花样繁多,细致到拿东西、豪放到奔跑都能搞定,还可以给机器人设置一个明确的目的。但是,总难免上演一些羞耻或惊喜play。

而动作捕捉技术,能让机器人做出和真人一模一样,自然流畅毫无违和感的动作。但是,活学活用是不能指望的,每个动作、每个形态的机器人,都是需要单独训练的。

伯克利的科学家们取这两个领域所长,创造了一种新方法DeepMimic。这种方法既有深度学习模型的通用性,可以覆盖更多的动作类型和机器人形态,动作的自然流畅程度也可以媲美动作捕捉。

用这种新方法,机器人究竟是怎么学习新动作的呢?

简单来说是通过看动作片段来学习,人类的动作捕捉数据就是个很好的学习资料。给机器人展示一个动作样本,比如说下图这个侧空翻,右侧就是供机器人学习的示范样本。

参与这项研究的科学家们将示范动作分解成一个q^0,q^1,…,q^T的序列,q^T表示的是在机器人在t时间步的目标动作。而这个机器人学习的目标,就是要尽可能消灭t时间步的实际动作qT和目标动作q^T的差距。

机器人勤劳地不停练习练习练习,直到自己的动作不再羞耻,灵活性和仿真度能够媲美演示视频,像上图左侧那样。

指导这个练习过程的,是这样一个奖励函数:

除了空翻,用这种方法教出来的机器人还能学到中西舞蹈、南拳北腿、跑步打把势甚至鲤鱼打挺:

对着完美的动作捕捉样本,再copy一遍,有什么意思?这项研究当然不止于模仿。DeepMimic能让机器人通过模仿学会动作之后,再活学活用起来。

比如当一个机器人学会了投球,就可以去执行一个演示样本中没有的任务。我们可以在模拟器中,指定一个目标让它来投:

训练的机器人,也可以长得和演示样本不太一样。比如说还是用前边的后空翻样本,可以训练一个模拟波士顿动力Altas的机器人:

甚至不是人形的机器人,也可以用人形样本来训练。比如说这头霸王龙,就是跟人形样本学习的走路。在论文的主页上,他们还展示了更多的例子,甚至还有狮子和龙~

文章来源专栏
天津机器人
+关注

评论(0)

加载更多评论

参与评论

热门推荐

分享到

QQ空间 QQ好友 微博
取消