您印象中的机器人还仅仅是按照代码指令完成任务吗?其实,通过观察人类行为来进行操作才是机器人的未来趋势。
图片由斯坦福视觉和学习实验室提供
在前不久的GPU技术大会上,来自斯坦福大学的Animesh Garg和Marynel Vázquez在主题为《机器人移动和操控的通用性自主能力》的演讲中分享了他们的研究成果。
通俗来讲,通用性自主能力是指机器人可以观察、学习并模仿人类行为,进而在各种任务和情况中加以应用。例如,通过观看YouTube视频学习烹饪,或者找到走出一间拥挤房间的方法。
Cooking 101
Garg是斯坦福视觉和学习实验室(CVGL)的博士后研究员。他热衷烹饪,还特别喜欢机器人。但是,他认为如果未来的每台机器人都只会做一道菜,就太无聊了。
目前,精通单个任务的机器人已经很常见,但Garg 则致力于研究如何实现他自己的“通用型机器人梦想”。
实现这个梦想的途径可能就在于神经任务编程 (NTP),这是一种新的元学习方法。NTP利用层次化结构,并学习使用模块化机器人API进行编程,从而仅通过一个测试示例即可执行隐藏任务。
例如,机器人厨师会将烹饪视频输入到它的系统里,然后使用分层式神经程序将视频数据分解成Garg所说的基于视觉线索和时间序列的结构化任务表达式。
机器人并非只学习制作肉丸意大利面的单一菜谱,而是会了解组成该任务的所有子程序或组件。如此一来,这位崭露头角的机器人厨师便可以在其他场景中展示其烧水、油炸肉丸和煨酱汁等烹饪技能。
解决任务域(而非任务实例)是Garg所谓的元学习的关键所在。NTP已经取得了一些令人鼓舞的成果,其结构化的分层式方法在处理隐藏任务时比扁平化编程表现优越。此外,在处理可见任务时NTP也同样出色。
感到太拥挤了?跟着机器人走吧
我们都经历过这样的情况。您尝试穿过拥挤的房间,然后突然发现自己撞到了迎面走来的陌生人。
您向右移动以绕开他,但他也向右,并且仍然挡着路。出于本能,你们都移动到另一个方向,然后又撞到了!
为了打破尴尬的场面,你们中的一个人开玩笑说“我们来跳个舞吧!”终于,你们越过彼此继续前进。
在一个拥挤的空间中行走时,理解人们如何以及为何按照某种方式移动十分重要。教会机器人理解这些规则是非常艰巨的任务。下面,我们来认识下Vázquez和CVGL的机器人Jackrabbot 。
Jackrabbot在2015年首次踏上人行道,以低于每小时五英里的行人速度进行小批量运送。正如Vázquez所解释的那样,Jackrabbot(得名于他校园中频繁出现的野生动物的名字)是用于解决在人群中预测人体运动这一复杂问题的工具。
让自动驾驶车辆学会在非结构化空间(比如真实世界)中行驶是一个涉及多方面因素的问题。“安全是第一要务,”Vázquez 说。
为了解决安全问题,他们开始利用深度学习开发了一种生成式对抗网络 (GAN),将JackRabbot相机捕获的实时数据与GAN即时生成的图像进行比较。
这些图像代表如果一个区域可以安全通过,机器人所应该看到的内容,例如走廊上没有关闭的门、被丢弃的家具或站在路上的行人。如果现实情形满足这些理想条件,JackRabbot就会继续行走。否则,它就会进行紧急制动。
然后,这支团队转向了多目标任务,即“追踪无法追踪的行人”。在人群中优雅地穿梭不仅需要迅速判断“我的路线是否清晰?”,还要追踪朝不同方向移动的多人的行动路线,并预测他们接下来的目的地。
在这里,该团队使用长短期记忆方法构建了一个递归神经网络,以解释随时间测量的多个线索,包括外观、速度、相互作用和相似性等。
一篇已发表的研究论文已经深入探讨了这些技术细节。但实际上,CVGL设计了一种新颖的方法,可以学习人们在拥挤空间的常识行为,然后利用这种理解来预测每个人接下来可能前往的“轨迹”。
因此,如果下一次您发现自己在一个满是陌生人的房间中即将遭遇“我们来跳个舞吧!”的尴尬时刻,请记得花点时间去探寻规律,将每个人的运动轨迹记忆在脑海之中。
当然您也可以采取捷径——找一个JackRabbot,让它为您指路。近期,配备双路NVIDIA GPU的JackRabbot 2.0已经发布。
全部0条评论
快来发表一下你的评论吧 !