一个开源的低成本机器人学习平台ROBEL

机器人技术与应用 2019-11-25 4575

描述

为了让机器人研究走向大众，加州大学伯克利分校(UC Berkeley)和谷歌大脑的研究人员提出了一个开源的低成本机器人学习平台ROBEL(RoboticsBenchmarks for Learning with Low-Cost Robots)。

ROBEL可以作为快速实验平台，支持各种实验需求，以及新的强化学习和控制方法的开发，同时提供主要用于促进现实世界物理硬件研究和开发的基准任务。其由D’Claw和D'Kitty组成，D'Claw是一个有三只手臂的机械臂型机器人，可以帮助学习灵巧的操作任务；D'Kitty是一个有四条腿的机器人，可以帮助学习灵活的腿部运动任务。该机器人平台具有低成本、模块化、可靠性高、易于维护等特点，并且功能强大，可支持基于硬件的强化学习。

图中左：十二自由度D'Kitty；中：9 自由度D'Claw；右：功能齐全的D'Claw 装置D’Lantern。

为了使机器人成本便宜和易于构建，研究人员基于现成的组件和常见的原型工具(3D打印或激光切割)设计了ROBEL。该设计很容易组装，只需要几个小时即可构建。

为了使机器人成本低且易于构建，研究人员基于现成的组件和常用的原型制作工具（3D打印或激光切割）设计出ROBEL，并提供详细的零件清单、组装说明和入门软件说明。ROBEL设计易于组装，仅需几个小时即可构建。

谷歌设计了一套对 D’Claw和D’Kitty两个平台都适用的任务，可用于对现实世界的机器人学习进行基准测试。ROBEL的任务定义包括密集和稀疏任务目标，并在任务定义中引入硬件安全指标，例如，指示关节是否超过“安全”操作界限或作用力阈值。此外，ROBEL还为所有任务提供模拟器，以促进算法开发和快速原型设计。D’Claw 任务主要围绕三种常见的操作行为展开：摆形(Pose)、旋转(Turn)和拧(Screw)；D’Kitty任务主要围绕三种常见的移动行为——站立、定向和行走展开。针对这些基准任务，研究人员评估了几种深度强化学习方法，评估结果和最终策略被作为baseline包含在软件包中以供比较。

ROBEL平台支持直接的硬件训练，迄今已积累了超过1.4万h的实际经验。为了确保平台和基准方法的可重复性，研究人员通过两个不同的实验室分别对ROBEL进行了研究，本研究仅使用软件分发和文档、不允许亲自访问，利用ROBEL的设计文档和组装说明，两者都可以复制两个硬件平台。基准任务训练在两个实验室分别构建的机器人上进行，实验表明，在两个不同地点打造的两个D'Claw机器人，它们不仅训练进度相似，而且最终收敛到了相同的性能，这说明ROBEL基准具备良好的可重复性。

ROBEL在各种强化学习研究中都非常有用。D’Claw平台是完全自主的，可以在很长一段时间内维持实验的可靠性，而且可以使用刚性和柔性对象的各种强化学习范例和任务改进实验。重要的是，D'Claw平台是高度模块化的，而且具备高度可重复性，便于进行扩展实验。通过扩展设置，研究人员发现多个D'Claws可以通过共享经验更快地对任务进行集体学习，通过共享SAC的分布式版本的硬件训练流程，其可以面向多个目标任务实现任意角度的结合。在多任务定制中，完成五个任务只需要单个任务经验的2倍时间即可。

同时，研究人员成功地在D’Kitty平台上部署了强大的移动策略，比如，D'Kitty可以在“盲眼”条件下在室内和室外地形上稳定行走，展现了步态的稳健性。

具体而言，在杂乱的室内环境行走时，通过MuJoCo模拟通过自然策略梯度训练的Sim2Real策略，机器人可以在随机扰动的条件下实现行走，并跨过障碍物；在布满碎石和树枝的室外环境行走时，通过自然策略梯度在MuJoCo模拟中训练的Sim2Real策略具有随机的高度场，机器人可以学习在分布着碎石和树枝的户外环境中行走；在室外斜坡和草丛环境中，通过自然策略梯度在MuJoCo模拟中训练的Sim2Real策略具有随机高度场，机器人可以学习在缓坡上行走。

当D’Kitty收到有关其躯干和场景中目标的信息时，其可以学会与表现出复杂行为的目标进行交互。比如，通过HierarchicalSim2Real训练的策略可以学习躲避移动障碍物，到达目标位置；通过Hierarchical Sim2Real训练的策略学习将目标推向移动目标（由手中的控制器标记）；双机器人协同-通过Hi-Herarchical Sim2Real训练的策略，可以学习协调两个D'Kitty机器人，将沉重的障碍物推向目标位置。

总之，ROBEL可以满足新兴的基于学习范式的需求，这些范式需要高度的可扩展性和弹性。

打开APP阅读更多精彩内容