让机器人通过一段只有一个人的视频来模仿学习

zhKF_jqr_AI 2018-02-07 6141

电子说

1.3w人已加入

描述

人类和动物在学习新行为时，大部分只需要观察一次就能学会，然而想让机器人学习就没那么容易了。随着计算机视觉的发展，目前的技术能让机器人依靠人体姿势检测系统，模仿人类的动作进行学习。不过每次都需要人类“做示范”未免有些麻烦，本篇论文的研究人员们想出了新方法：让机器人通过一段只有一个人的视频来模仿学习。

此前的研究表明，机器人能通过观察示范学习一系列复杂的技能，例如倒水、打乒乓球、打开抽屉等。然而，机器人模仿最有效的方法与人类学习有很大的不同：机器人通常需要接到具体的动作示范或遥控操作，人类只需看别人做一遍就能了解。另外，人类还能根据环境变化改变策略，适应新情况。所以，我们怎样能让机器人像人类一样，通过观察第三方示范进行学习？

从原始视频中获得技能存在两大挑战。首先，人类演示者和机器人的外观及形态的差异会带来系统性的域转移（domain shift），即对应问题（correspondence problem）。其次，从原始视觉输入中学习通常需要大量数据，深度学习视觉系统一般要使用数十万至数百万的图像。而在本文中，我们展示了通过基于元学习的单一方法解决这两个挑战。

前期准备

该方法建立在之前的工作成果或者元学习的基础上，我们将对模型元学习算法进行扩展，它能够处理提供的数据（即人类演示）和评估设置（即机器人动作）之间的域转移。

元学习算法能快速有效地学习新任务，一般来说，元学习可以看作是发现任务之间存在的结构的功能。当模型从元测试集中提出新任务时，模型可以使用已知结构快速学习。算法（MAML）通过对深度网络的初始参数设置进行优化来实现这一点。在元训练之后，根据新任务的数据对学习参数进行微调。

模仿人类

在这一部分，我们将说明机器人一次性模仿人类学习的问题，并介绍我们的试验方法。从含有人类的视频中进行学习可以看做是一个推理问题，其目标是推断机器人的策略参数，它能将先验知识与少量证据结合来完成任务。为了从只有一个人的视频中有效学习，我们需要包含着对世界有着丰富视觉和物体理解的先验知识。

而试验方法包括两个阶段，在元训练阶段，我们需要利用人类和机器人的动作数据获取先验知识，然后通过快速学习模仿动作。这一方法的关键部分在于，它可以迁移到其他元学习算法中去。如MAML算法一样，我们将学习一系列初始参数，在经历过几次梯度下降后，模型还能有效地完成新任务。最终用于元目标的算法可以总结为：

深度学习