对于人类来说,把面团放到砧板上,然后用擀面杖把它压平成圆形。这看起来很容易,对吧?
那如果是由机器人来操作,会是怎样的效果?
对于机器人来说,面对像面团这样的可变形物体是很棘手的,因为面团的形状可以以多种方式变化,而这些变化很难用方程式来表示。
此外,从面团中创建新形状需要多个步骤并使用不同的工具。这就意味着机器人需要学习一系列长长的操作任务,然后还需要通过反复试验更多可能的选择。
现在,来自,麻省理工学院、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员创建了一个框架,可以让机器人快速有效地完成复杂的操作任务,例如揉面皮包饺子、做披萨。
▍一个机器人操纵系统的框架—— DiffSkill
研究人员为使用两阶段学习过程的机器人操作系统创建了一个框架,这可以使机器人能够在很长一段时间内执行复杂的面团操作任务。
这个算法会像“老师”一样解决机器人完成任务必须采取的每一步。然后训练一个“学生”机器学习在什么时间段以及如何执行任务期间所需的每项技能的抽象概念,例如使用擀面杖。
有了这些知识,系统就会推理出如何执行技能来完成整个任务。
一系列操作,堪称“手把手教学”。
研究人员表明,这种他们称之为 DiffSkill 的方法可以在模拟中执行复杂的操作任务,例如切割和摊开面团,或从砧板周围收集面团,同时优于其他机器学习方法。
当然,除了包饺子、做披萨之外,这种方法还可以应用于其他需要机器人操纵的可变形物体的环境。
例如为老年人或运动障碍者喂食、洗澡或穿衣的护理机器人。
“这种方法更接近我们人类计划行动的方式。当一个人执行一项长期任务时,我们并没有写下所有的细节。我们有一个更高级别的计划者,它大致告诉我们在此过程中需要实现哪些阶段以及一些中间目标,然后我们执行它们,”计算机科学与人工智能专业的研究生Li表示。
▍“学生”&“老师” 的工作流程
DiffSkill 框架中的“老师”是一种轨迹优化算法,可以解决物体初始状态和目标位置靠得很近的短视界任务。
轨迹优化器在模拟现实世界物理的模拟器中工作(称为可微物理模拟器,它将“Diff”放入“DiffSkill”中)。然后,“老师”算法使用模拟器中的信息来学习面团在每个阶段必须如何移动,一次一个,然后输出这些轨迹。
然后“学生”神经网络学会模仿老师的动作。作为输入,它使用两个摄像头图像,一个显示当前状态的面团,另一个显示任务结束时的面团。神经网络生成一个高级计划,以确定如何将不同的技能联系起来以达到目标。然后,它为每个技能生成特定的、短视界的轨迹,并将命令直接发送到工具。
接着,研究人员使用这种技术对三种不同的模拟面团操作任务进行了实验。
在一项任务中,机器人使用抹刀将面团举到砧板上,然后使用擀面杖将其压平。在另一个例子中,机器人使用抓手从柜台上收集面团,将其放在抹刀上,然后将其转移到砧板上。
在第三个任务中,机器人用刀将一堆面团切成两半,然后用夹具将每一块面团运送到不同的位置。
同时,研究人员开发了一种机器人操纵系统,可以在模拟中使用工具执行复杂的面团操作任务。
例如收集面团并将其放在砧板上(左),将一块面团切成两半并将两半分开(中),以及将面团抬到一块砧板,然后用擀面杖将其压平(右)。
实验结果证明,DiffSkill 框架能够胜过依赖强化学习的流行技术。在强化学习中,机器人通过反复试验来学习任务。
事实上,DiffSkill 是唯一能够成功完成所有三个面团操作任务的方法。有趣的是,研究人员发现“学生”神经网络甚至能够胜过“教师”算法,Lin 说。
“我们的框架为机器人获得新技能提供了一种新颖的方式。然后可以将这些技能链接起来,以解决更复杂的任务,这些任务超出了以前的机器人系统的能力,”Li说。
因为他们的方法侧重于控制工具(抹刀、刀、擀面杖等),所以它可以应用于不同的机器人,但前提是它们使用研究人员定义的特定工具。
未来,他们计划将工具的形状集成到“学生”网络的推理中,以便将其应用于其他设备。
该团队的研究人员们打算通过使用 3D 数据作为输入来提高 DiffSkill 的性能,同时,他们还希望使神经网络规划过程更高效,并收集更多样的训练数据,以增强 DiffSkill 对新情况的泛化能力。
从长远来看,他们希望将 DiffSkill 应用到更多样化的任务中,包括布料操作。
这项研究得到了美国国家科学基金会、LG电子、麻省理工学院-IBM 沃森人工智能实验室、美国海军研究办公室和国防高级研究计划局的部分支持。
文章及论文地址:
https://news.mit.edu/2022/robotic-deformable-object-0331
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !