一种新型深度网络架构可以从过去的动作和观察结果学习以进行自校准

Tensorflowers 2018-07-10 3182

描述

人们非常擅长操作物体，而无需将视角调整到某一固定或特定位置。这种能力（称为视觉动作整合）在孩童时期通过在各种情境中操作物体而习得，并由一种利用丰富的感官信号和视觉作为反馈的自适应纠错机制控制。不过，对于机器人技术中基于视觉的控制器而言，想要具备这种能力却十分困难。

直到现在，这种控制器都基于一种用于从固定安装式摄像头读取视觉输入数据的固定装置，训练和测试过程中不能移动或重新调整摄像头的位置。在视角大幅变化的情况下快速获取视觉运动控制技能的能力将对自主机器人系统产生重大影响。例如，这种能力对于参与紧急情况或灾区救援工作的机器人来说尤其必要。

在本周的 CVPR 2018 大会上，我们提交了名为“Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control”的论文。在这篇论文中，我们研究了一种新型深度网络架构（由两个完全卷积网络和一个长短期记忆单元组成），该架构可以从过去的动作和观察结果学习以进行自校准。我们的视觉适应网络利用由演示轨迹和强化学习目标组成的各种模拟数据，能够从各种视角控制机械臂到达各种视觉指示目标，并且不依赖于摄像头校准。

用物理机械臂到达视觉指示目标的视角不变操作

我们学习了一种策略，可以通过从截然不同的摄像头视角捕获的感官输入到达不同的目标

第一行所示为视觉指示目标

挑战

通过从未知视角捕获的单一图像分析可控自由程度 (DoF) 对视觉运动的影响可能不够明确和具体。确定动作对图像-空间运动的影响并成功执行所需的任务需要一个具备对过去动作的记忆能力的强大感知系统。要解决这一具有挑战性的问题，我们必须解决以下基本问题：

• 如何提供适当的经验，让机器人在模拟终身学习范式的纯视觉观察的基础上学习自适应行为？

• 如何设计一个集强大感知和自适应控制于一体并能够快速转移到未知环境的模型？

为此，我们设计了一个新的操作任务，为一个七自由度机械臂提供一种物体的图像，并指示它在一系列干扰物中拿到特定的目标物体，同时每一次试验的视角会发生巨大变化。通过这种方式，我们能够模拟复杂行为的学习以及向未知环境的转移。

用物理机械臂和各种摄像头视角完成到达视觉指示目标的任务

利用模拟学习复杂行为

收集机器人经验数据费时费力。在之前的博文中，我们展示了如何通过将数据收集和试验分配给多个机器人来扩展学习技能。尽管这种方法加快了学习速度，但学习视觉自校准等复杂行为仍然不可行，学习复杂行为时需要我们将机器人置于包含各种视角的大型空间中。

因此，我们选择在模拟中学习此类复杂行为，我们可以收集无限的机器人试验数据，并轻松将摄像头移到各个随机视角。除了在模拟中快速收集数据外，我们还可以摆脱在机器人周围安装多个摄像头的硬件限制。

我们在模拟中使用域随机化技术来学习可泛化的策略。

为了学习要向未知环境转移的强大视觉特征，我们使用了 Sadeghi & Levine 在 2017 年提出的一项称为“域随机化”（又名“模拟随机化”）的技术，使机器人能够完全在模拟中学习基于视觉的策略，从而可以泛化到现实世界。这项技术已被证明适用于各种机器人任务，例如室内导航、物体定位以及挑选和放置等。此外，为了学习自校准等复杂行为，我们利用模拟功能来生成合成演示并结合强化学习目标来学习强大的机械臂控制器。

用模拟的七自由度机械臂到达视觉指示目标的视角不变操作

我们学习了一种策略，可以通过从截然不同的摄像头视角捕获的感官输入到达不同的目标

将感知与控制分离

为了能够快速转移到未知环境中，我们设计了一个深度神经网络，将感知和控制相结合，并同时进行端到端训练，且在必要情况下允许二者分别进行学习。将感知与控制分离让转移到未知环境变得容易，并且使得模型既灵活又高效，因为它的每个部分（即“感知”或“控制”）可以使用少量数据单独适应新环境。

另外，虽然网络的控制部分完全使用模拟数据训练，但网络的感知部分通过用物体边界框收集少量静态图像来补充，而不需要用物理机器人收集整个动作序列轨迹。在实践中，我们只用了来自 22 个图像的 76 个物体边界框来微调网络的感知部分。

现实世界的机器人和移动摄像头设置第一行所示为场景布置，第二行为机器人的视觉感官输入

早期结果

我们在物理机器人和真实物体上测试了视觉适应版本的网络，这些物体的外观与模拟中使用的完全不同。在实验中，桌子上会出现一个或两个物体 -“见过的物体”（如下图所示）用于视觉适应，实验中使用的是小型静态真实图像集。在视觉适应期间没有看到“未见过的物体”。在测试过程中，指示机械臂从各个视角到达视觉指示物体。对于双物体实验，第二个物体用于“迷惑”机械臂。由于纯模拟网络具有良好的泛化能力（因为它是使用域随机化技术进行训练的），加上我们的网络架构非常灵活，因此，虽然实验中仅收集了非常少量的静态视觉数据用于视觉适应，控制器的表现仍然有了很大提升。

在使用少量真实图像进行视觉特征适应后，性能提高了10% 以上。使用的所有真实物体都与模拟中看到的物体截然不同。

我们认为，学习在线视觉自适应是一个重要而又具有挑战性的课题，其目标是学习可泛化策略，让机器人能够在多样化、非结构型现实世界中运行。我们的方法可以延伸到任何类型的自动自校准。

打开APP阅读更多精彩内容