AI环境探索模型升级缩小搜索范围效率更高

时光月 2021-02-13 2872

电子说

1.4w人已加入

描述

近日，卡内基·梅隆大学、脸书等机构的研究人员提出了一个新的AI环境探索模型。这个新模型综合了传统环境探索模型和基于学习方法的环境探索模型的优点，更简单和不易出错。

这项研究已经发表在学术网站arXiv上，论文标题为《利用主动神经SLAM学习探索环境（Learning To Explore Using Active Neural SLAM）》。

论文链接：https://arxiv.org/pdf/2004.05155.pdf

SLAM

一、ANS模型：真实模拟探索环境

导航能力是智能代理的核心能力之一。导航任务有许多形式，比如点目标任务指导航到特定的坐标，语义导航任务指导航到去特定场景或对象的路径。

不论哪一种任务，在未知环境中导航的核心问题都是如何高效地探索尽可能多的环境。这样才能扩大在未知环境中找到目标的机会，或者在有限的时间里有效地预映射环境。

传统的探索模型原理是用传感器观察几何体。之后有研究者提出了基于学习的导航模型，该模型依据RGB图像直接推测出几何体。

基于学习的导航策略通过端到端（end-to-end）训练神经网络实现，可以处理原始的传感器数据，直接输出代理该执行的操作。这种策略有3个优势：

1、提高了输入方式选择的灵活性；

2、提高显式状态估计误差的稳健性；

3、通过学习掌握真实世界的结构规律性，使代理更有目的性地行动

理论上端到端的学习策略有上述优势，但也有局限性。

首先，纯粹从数据中学习映射、状态评估、路径规划可能会非常昂贵。因此，以往的端到端学习依赖于模仿学习和以百万计的经验框架。

其次，以往针对端到端学习策略的研究缺乏真实性。比如使用的是合成室内环境数据库SUNC、简化了代理动作、运行环境去除了传感器噪音等。

从表现来说，端到端的学习策略也往往比不需要任何学习的传统方法差。

为了解决全面端到端学习的局限性，卡内基·梅隆大学、脸书、伊利诺大学厄巴纳-香槟分校的研究人员推出了“主动神经即时定位与地图构建（ANS，Active Neural SLAM）模型”。

实验设计上，研究人员尽量使模型训练环境更真实，用到了生境模拟器和两个基于真实情景的数据库（Gibson和Matterport），不限制代理的动作，还模拟了传感器噪音。

二、缩小搜索范围，兼顾搜索性能和效率

本项研究中，导航模型的任务是在固定时间内覆盖最大范围。覆盖范围定义为地图中已知被穿越的总面积。

ANS模型包括一个学习神经即时定位与地图构建（SLAM，Simultaneous localization and mapping）模块，一个全局策略（global policy）和一个局部策略（local policy）。它们通过地图和一个分析路径规划器相连。

层次化和模块化的设计和分析规划的使用，大大减小了训练过程中的搜索范围，同时提高了性能和样本效率。

SLAM

▲模型示意图

训练过程中，学习神经SLAM模块产生自由空间地图，并依据输入的RGB图像和运动传感器数据预测代理的姿势。SLAM模块的学习提升了输入方式的灵活性。

全局策略利用代理的姿势来占据自由空间地图，并把学习现实世界环境布局的结构性规则作为长期目标。全局策略可以探索真实世界环境的布局。

长期目标可以为局部策略生成短期目标。局部策略通过学习，直接从RGB图像中映射出代理应该做出的动作，呈现可视化反馈。

SLAM

▲模型运行过程示意图

三、ANS模型能探索更大范围，比基线模型性能优秀

利用Gibson训练集，研究人员完成了对ANS模型的训练，运行了1000万帧探索任务的所有基线。结果如下表。

SLAM

运行结果基于模型在14个未知场景中994次运行的结果进行平均。与最佳基线的24.863m^2/0.789相比，模型的覆盖率为32.701m^2/0.948。这个数值说明，与基线相比，ANS模型在穷尽探索上更有效。

研究人员还对比了模型和基线在较大训练集、较小训练集、全部Gibson训练集中的运行效果。

SLAM

较小训练集中，ANS模型能在500步探索完未知环境，而基线运行1000步后仍只探索了位置环境的85~90%（上图中）。

较大训练集中，随着情节的发展，ANS模型与基线之间的差距会扩大（上图左）。

基线模型中，代理经常只探索局部区域，这说明它们无法记住长期视野的探索区域，不能进行长期规划。相比之下，ANS采用全局策略，可以记忆探索过的区域，有效地规划并实现长期目标。

受到结果鼓舞，研究人员用ANS模型部署了一个环境探索机器人。通过调整摄相机的高度和垂直视野，并匹配栖息地模拟器，机器人成功探索出一个公寓的生活区域。

SLAM

结语：ANS模型效率更高，未来或有更多应用

ANS导航模型克服了之前的基于端对端学习策略的缺陷，基于更真实的数据库进行训练，最终探索效率有所提升。

研究人员认为这个模型在未来或许会有更多应用。“未来，ANS模型可以扩展到复杂的语义任务，比如语义目标导航和回答具体问题，这将创建出一个能捕获对象语义属性的地图。”

另外，这个模型也可以与先前的本地化工作结合，在此前创建的地图中重新定位，使之后的导航更高效。

责任编辑：PSY

打开APP阅读更多精彩内容

AI环境探索模型升级 缩小搜索范围效率更高

描述

AI环境探索模型升级缩小搜索范围效率更高