利用AI让机器人学会自己穿衣服

电子说

1.3w人已加入

描述

让智能体自己学会穿衣服一直是个难题,除了对衣服的布料的材质模拟存在困难之外,穿衣过程中目标与衣服之间的频繁复杂的交互也会导致计算成本过高。在Siggraph 2018上,研究人员试图通过深度强化学习,将布料模拟融入学习框架,教机器人学会自己穿衣服!

随着AI技术进步的日新月异,现在的机器人越来越智能,但不管是机器人还是虚拟模型,基本都处于“赤身裸体”的状态,即便是穿了衣服,也是靠着外部的力量或帮助穿上的。

如何让这些智能体学会自己穿衣服一直是个难题,因为衣服的布料多种多样,材质性质各不相同,而且在穿衣过程中,衣服和身体会发生频繁而复杂的相互作用。这两点是解决“机器人学穿衣”过程中面临的最大挑战。

现在,研究人员正试图攻克这个难题。在Siggraph 2018上的一篇论文《Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning》中,来自佐治亚理工学院和谷歌大脑的研究团队描述了他们如何利用人工智能,来教虚拟人如何自己穿衣服。

本文表明,AI能够利用机器学习工具“自动发现强大的穿衣技能”,并设法训练出强大的穿衣模型,尽管对衣服布料的模拟计算成本很高。

本文作者表示,让AI 学会穿衣服的秘诀就是触觉,可以用于动态调整AI的协调性,以适应褶皱、光滑、或材质诡异的布料。

研究概览:将布料模拟融入深度强化学习框架

由于人和穿的衣服之间存在着复杂的相互作用,所以创建人物穿衣服的逼真动画是很具有挑战性的任务。我们采用无模型深度强化学习(deepRL)方法,实现自动发现由神经网络表示的、高鲁棒性的控制策略。

虽然深度强化学习方案在复杂运动技能的学习方面取得了一些成功,但学习算法的数据特征与实际任务所需的、计算成本高昂的衣服和布料模拟任务并不一致。

下面是研究人员制作的机器人穿衣视频演示,一起来看看,一共有3种衣服哟!

本文首次证明,通过设计合适的输入状态空间和奖励函数,可以把对布料的模拟结合到深度强化学习框架中,以便学习强大的穿衣控制策略。

我们利用触觉信息的显著表示,来指导虚拟人物穿衣的过程,并将其用于奖励函数中,在训练期间提供明确的学习信号。我们发现,为了学习涉及各种穿衣操作技能的长时间运动序列,比如“抓住T恤衫的边缘”或者“拉袖子”,有必要将整个穿衣任务分成几个子任务,并分别学习控制策略。

为此,本文引入了策略排序算法,该算法匹配从一个任务到输出分布的输出状态的分布,用于序列中的下一个任务。我们已经使用这种方法为几种穿衣任务生成角色控制器:即穿T恤,穿外套,以及在机器人辅助下穿袖子。

虚拟人在穿T恤衫、外套和医院的防护服

将穿衣任务分割为多个子任务

我们提出了一个强化学习框架,来训练虚拟角色在模拟环境中穿上衣服。我们的方法将穿衣任务分成一系列子任务,这些任务之间的转换由一个状态机实现指导。比如,穿上外套这个任务包括以下四个子任务:将袖子套在第一条手臂上,把第二条手臂向后伸,将第二只袖子套在手臂上,最后将身体重新转到原来的静止位置。

强化学习

子任务控制器的奖励权重

对于每个子任务,我们制定一个单独的强化学习问题来学习控制策略。为了确保这些单独的控制策略在按顺序执行时能够组成成功的穿衣序列,我们引入了一个策略排序算法,该算法将每个子任务的初始状态分布与前一个子任务的最终状态分布相匹配。

这样得到的控制策略可以按照虚拟人与衣服的交互率实现按顺序应用。在通过子任务完成标准的状态机的转换下,产生多种成功的穿衣动作。

排序控制策略

由于每个子任务都是作为一个单独的穿衣过程而制定的,因此在转换点上直接执行策略往往会失败。 我们引入了一种策略排序算法,可确保不同策略之间的成功转换,从而实现按需要延长序列的任务。该算法主要由两个通道组成,在算法1伪代码中表示。

强化学习

策略排序算法示意

部分插入衣服(蓝色圆柱体)的手臂相关计算的可视化呈现

虚拟人分别穿T恤、外套和医院防护服的动作示意图

最终研究政策的效果评估,x轴表示时间步长

在马尔可夫决策过程(MDP)中的手臂伸进和静止姿态的误差量度的比较

研究结论和未来前景

我们提出了一个系统,通过使用强化学习和物理模拟,学习如何建立虚拟人物穿衣的动画。在将整个穿衣任务划分为可管理控制的多个子任务后,系统会单独学习每个子任务,将这些任务与状态机连接,并将每个子任务的输入状态分布与先前子任务的输出分布相匹配。

我们发现,仔细选择对布料观察结果和奖励函数,对于这种策略的成功非常重要。我们的方法的结果不仅仅是穿衣序列,而是一个可以在各种初始条件下实现成功穿衣的控制器。

尽管该系统在几个穿衣任务上取得了成功,但仍有改进的余地。我们的系统目前执行的上半身的穿衣任务,要想将穿衣任务扩展至下半身,需要将平衡机制纳入控制器。

虽然我们建立的衣服观察空间足以完成所展示的任务,但是看看是否可以训练端对端控制器,利用模拟视觉来确定衣服的状态也是很有趣的事情。

我们的基于触觉的观察有助于跨越模拟效率和表示能力之间的鸿沟,但更完整的人体触觉感知模型可能用于各种应用。

最后,使用具有存储器的控制策略体系结构,可以减少必要子任务的数量,并将已学会的技能实现更大程度的推广。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分