电子说
编者按:Gibson是一个基于现实世界的虚拟环境,以支持感知学习,与游戏或人工环境不同。Gibson能让算法同时探索感知和运动。
Gibson环境的名称来源于Ecological Approach to Visual Perception一书的作者James J. Gibson,他曾说过:“我们必须为了移动进行感知,但同时也要为了感知而移动。”
摘要
为活动的智能体创建视觉感知模型并进行感觉运动控制是非常困难的,因为目前的算法较慢,无法进行高效的实时学习,而机器人成本较高,也很脆弱。这就催生了“在模拟中学习”的方法,随之而来的问题是,结果能否转移到现实世界。在这篇论文中,我们研究了在活动的智能体上对现实世界进行感知,并提出了Gibson虚拟环境,展示了从中学到的样本感知任务。
详细介绍
理想的机器人智能体需要具备复合的感知和物理能力,例如可以自动检查建筑物的无人机、在受灾区域迅速定位受害者的机器人或者可以安全运输包裹的机器人等等。除了应用角度,在视觉感知和物理运动之间建立密切的联系在很多领域都是很流行的:进化和计算机科学生物学家们曾假设,要想在复杂的行为和智能体种类中结合感知和运动,就需要一个关键的角色;神经科学家们认为在发展感知和保持活跃之间需要一个联合的关系;机器人专家们也认为两种功能应该有类似的关系。这都需要发展能够感知的模型,尤其是具有活动的智能体的模型。
通常,我们提到的智能体可以从外界环境中接收到视觉,也能相应地实现一系列动作,可以导致环境中出现实质性的改变,或者智能体本身做出某些改变。那么应该如何、在哪里创建这样的智能体呢?
首先,关于如何建造的问题,已经有很多相关研究了,从经典的控制问题,到最近的感知运动控制、强化学习、预测运动、模仿学习等等。这些方法通常假设给定从环境中观察到的物体,之后制定一个或一系列动作来完成任务。
另一个关键问题,也就是传感器得到的观察从何而来。传统的计算机视觉数据集是被动而且静止的,虽然说从现实中学习是可能的,但这并不是理想场景,因为其中的学习速率必须是实时的,如果发生大规模并行,则会增加计算成本。机器人又很脆弱,这就导致了“在模拟中学习”的大规模出现。首要问题在于,如何自然地从对现实世界的模拟中进行泛化,如何保证:
模拟环境的语义复杂性精确地反映了现实世界;
经过渲染的视觉观察和照相机捕捉到的影响相近(写实)。
为了解决这一方法,我们提出了Gibson,一种为了训练和测试智能体对真实世界理解的虚拟环境。
Gibson组成
Gibson的主要目标是帮助在现实环境中训练的模型完成迁移,这一过程分为两步。首先,在现实环境中表现自己的语义复杂性,并根据扫描过的真是场景构造环境,而不是根据人工渲染的环境创建。之后,嵌入一个机制,解决Gibson的渲染和真实相机之间的差异。
最后,智能体无法分辨Gibson渲染的成果和相机拍出的照片,于是二者之间感知上的差异就减少了许多。这是由于使用了基于渲染方法的神经网络的结果,使渲染出来的图片看上去更像真实照片,同时另一个网络还能将真实图像变得更像渲染出的结果。两个函数被训练成能产生相同的输出,所以可以连接两个区域。
Gibson的结构包括一个基于视觉合成的神经网络,还有一个物理引擎。视觉合成系统的组成如图所示:
它由一个几何点云渲染器和神经网络组成,可以修正伪影,填补未被覆盖的区域。
3D输入和几何渲染有很多不完美的地方,而且用神经网络得到照片一样真实的结果似乎也不可能。所以这里和真实照片之间存在着巨大的差异。于是,我们将渲染问题看作是构建一个公共空间,保证真实图片和渲染图片之间是对应的。
实验结果
Gibson所用数据集来自多种扫描设备,包括NavVis、Matterport或者DotProduct,涵盖了多种不同的空间,例如办公室、车库、剧院、便利店、健身房、医院等等。所有空间都完全用3D重建,并且经过了后处理。我们对Gibson进行了基准测试,与现有的合成数据集进行了比较,具体参数如下表:
SSA表示特殊表面区域,是用来表示模型混乱的尺度。接着,我们对比了模型对样本的渲染效果:
从上到下依次是未经神经网络修正的图片、经过神经网络修正的图片、Goggles看到的真实图片、目标图片
迁移到真实环境
下图4×4的矩阵表示了从Gibson迁移到真实场景的评估分数,(a)表示所有训练测试结合的深度估算错误;(b)(c)表示MMD和CORAL分布的距离。
任务解决策略
同时经过训练,模型可以根据奖励设计解决任务的策略:
路线规划及避障
远距离导航
结语
虽然Gibson环境能让运动中的智能体对现实世界有良好的感知,但其中仍有一些缺陷。首先,尽管Gibson可以学习复杂的导航和移动,但是目前它无法做出其他动态动作,也不能进行操控。这可以通过与合成物体结合解决。另外,我们并没有考虑所有的材料特点,而且目前也没有最理想的物理模拟器,这可能会导致物理之间的差距。最后,我们基本上是在静态任务中进行迁移,未来这一模型还是要应用在真实的机器人上。
全部0条评论
快来发表一下你的评论吧 !