机器人没有度量信息如何导航

3D视觉工坊 2024-11-13 1756

描述

0. 这篇文章干了啥？

机器人能否像人类一样利用有限的度量和空间信息进行导航呢？目前，大多数机器人的导航系统依赖于详细的几何地图和精确的度量定位。然而，人类通常可以凭借着抽象的、不准确的环境表示（例如手绘草图或基于语言的指示）以及对自己位置的近似语义概念，找到前往目的地的路线。这种技能的一个关键因素是我们能够使用导航行为来表示和导航环境，这些行为是语义行动抽象，如向左转或沿走廊前进。人类可以使用几何不准确的地图或表示，因为这些地图依然可以抽象地捕捉环境中的路径，作为导航行为序列：例如，平面图可以让我们推断出转弯和沿走廊行动的抽象序列，以达到给定房间的目的，尽管它们缺乏现实感。我们还可以感知导航机会，即在当地环境中执行导航行为的潜力，并将它们用作我们位置的非度量、视觉线索：例如，观察到附近的交叉口只能让我们左转和前进，可以暗示我们在建筑物中的位置。我们假设使用导航行为来表示和遍历环境赋予了机器人利用有限的度量和空间信息进行导航的能力。

为了测试这一假设，我们设计了一个基于场景动作地图（SAM）的导航行为系统，SAM是一个由关键位置（节点）和导航行为（边）连接而成的拓扑表示，支持非度量规划和定位。特别是，我们提出了一个可学习的地图阅读管道，从各种现成的环境二维地图中提取SAM，例如手绘草图和平面图。虽然许多系统难以使用这些地图，因为它们存在度量上的不准确和抽象性，但我们的系统利用了这些地图中编码的底层SAM，从而利用了这些丰富的现有地图信息。

视觉导航的先前工作已经证明了学习类人导航行为和与之相关的导航机会定位的实用性，并在此基础上，我们实现了一个使用SAM的行为导航栈，并将其部署到真实机器人上，以验证从地图中提取的SAM对导航的有用性。具体来说，我们使用DECISION控制器的避障导航行为，并为基于导航机会的定位改进了图形定位网络。我们从手绘地图、平面图和卫星地图中"读取"SAM，并证明这些提取出的SAM可用于有效的实际导航。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Scene Action Maps: Behavioural Maps for Navigation without Metric Information

作者：Joel Loo, David Hsu

机构：新加坡国立大学

原文链接：http://arxiv.org/abs/2405.07948

代码链接：https://scene-action-maps.github.io/

官方主页：https://scene-action-maps.github.io/

2. 摘要

人类在没有度量信息的情况下导航能力非凡。我们可以阅读抽象的2D地图，比如平面图或手绘草图，并利用它们在未见过的丰富3D环境中导航，而无需先前的遍历来详细绘制这些场景。我们认为，这是通过将环境抽象地表示为相互连接的导航行为来实现的，例如"沿走廊前进"或"向右转"，同时避免了在度量级别上详细、准确的空间信息。我们引入了场景行动地图（SAM），这是一个行为拓扑图，并提出了一种可学习的地图阅读方法，将各种2D地图解析成SAM。地图阅读从现有的、抽象的和不准确的地图中提取出关于导航行为的显著信息，这些地图从平面图到草图不等。我们通过在四足机器人上构建和部署行为导航堆栈来评估SAM在导航中的性能。视频和更多信息可在此网址获得：https://scene-action-maps.github.io/。

3. 效果展示

我们提出了一个可学习的地图阅读系统，该系统从现有的二维地图中提取场景行动地图，用于行为导航。

SAM

4. 基本原理是啥？

我们考虑在机器人之前可能没有见过或探索过的环境中导航到目标的任务。这自然需要导航具有有限的度量和空间信息，因为缺乏先前的数据意味着规划和定位可能无法获得详细的几何地图。然而，我们假设可以访问到环境的现有的2D地图，例如平面图、手绘地图和卫星地图。尽管它们可能是抽象的和不准确的，但它们保留了有关环境的导航方面的信息，对规划和定位是有用的。

这个任务的一些关键挑战包括指定目标、使用一系列抽象、不准确的地图进行规划和定位。我们的方法是从地图中提取环境的行为拓扑图，即场景动作图（SAM），并用它导航。我们假设可以访问一组像DECISION一样的导航行为，它们能够进行局部障碍物避让，并且足够多样化，可以让我们到达目标环境的大部分地方。我们的离线地图阅读系统是一个可学习的流水线，它可以根据特定的行为集从各种2D地图中提取SAM。在线行为导航系统接收在SAM上指定的目标，规划SAM上的路径并执行它。由于我们不能依赖于准确的度量信息，我们使用基于能力的定位和学习的导航行为。

SAM

将fep应用于标记为橙色的节点：1) 使用ϕ_edge和Sinkhorn预测软分配矩阵，2) 阈值处理以生成出射边。

SAM

5. 实验结果

我们收集了3种地图类型的数据：手绘地图（Hand）和校园建筑的平面图（Flr），以及工业区域的卫星地图（SatMap）。对于Hand和Flr数据集中的地图，我们进行手动注释。对于SatMap地图，我们使用OpenStreetMap的道路/交叉口信息进行注释。我们为每种地图类型训练了一个单独的地图阅读模块实例。为了回答Q1，我们在留出的数据集上进行测试：Hand/Flr各有4张地图，每张地图平均有27个节点和64条边，SatMap有1张大型地图，包含137个节点和414条边。我们计算了3个任务的精度和召回率：（A）预测节点/变点，（B）仅预测边（忽略行为的正确性），以及（C）预测边以及它们关联的行为。直观地说，（B）显示了环境的结构和连接性被捕捉的程度。（C）进一步检查每条边的分配行为是否与人工注释的地图相符。结果见表I。

SAM

我们的节点预测在所有地图类型上都能很好地预测变点。从质量上来看，ϕnode能够可靠地捕捉地图中的视觉特征，如交叉口或转弯，在使用DECISION行为集时可以指示变点。失败主要发生在环境结构不够明确的开放区域，导致更多的假阳性和假阴性。SatMap的相对较低的召回率分数主要是由于交叉口等特征被高楼遮挡在密集建筑区域中，导致更多的假阴性。我们的边缘预测在任务（B）上表现良好，特别是在SatMap上，因为卫星地图中固有的丰富视觉信息。较低的召回率分数表明fep的主要限制在于偶尔无法识别有效边缘。与（B）相比，任务（C）的性能较低表明，虽然ϕedge能够很好地学习节点之间的可达性，但学习正确的视觉特征来分配正确的行为要困难得多。这一观察得到了支持，即大多数失败都涉及将前进行为错误地分配为转弯行为，反之亦然。我们连接节点和边的预测，并在图4中端到端生成SAMs。

SAM

我们的方法可以追踪出捕捉地图拓扑的连接图，相当准确。虽然预测的SAMs中存在一些噪音 - 如缺失的变点、标记错误的边缘等 - 但我们证明这些SAMs仍然可以有效用于行为导航。我们通过展示，可以使用"嘈杂"的预测SAMs进行有效的行为导航，这些SAMs可能包含诸如用错误行为标记的边缘或缺少节点/边缘等缺陷（见图4）。我们评估了SLS和SLS-Aug在嘈杂的SAMs上，其中SLS-Aug使用了我们提出的数据增强方法训练的GLN，以提高噪声鲁棒性。我们从表II中得出两个结论。首先，当用预测的嘈杂SAMs替换人工注释的SAMs时，导航性能几乎没有受到不利影响，这表明SLS系统在人工注释和预测的SAMs之间最多只见到少量的PC下降。从经验上看，SLS和SLS-Aug似乎对常见的噪声模式 - 即在交叉口处缺失边缘或混淆的前进和转弯行为 - 具有鲁棒性，并且通常能够利用剩余的正确拓扑特征来定位和导航。其次，我们的数据增强方法提高了包含噪音和伪迹的预测SAMs的定位和导航性能。在预测的SAMs上，SLS-Aug通常优于其他测试设置，甚至在人工注释的SAMs上也优于SLS。总的来说，即使在包含多个变点转换的100米Hard路线上，SLS-Aug在预测2D地图的SAMs上显示出了有希望的性能，从而证实了从2D地图预测SAMs以在现实世界中定位和导航的可行性。

SAM

6. 总结 & 未来工作

我们引入了场景行为地图，这是一种用于导航的行为拓扑表示。我们认识到，常见的预先存在的地图，如平面图，通常编码了有关导航可供性和行为的信息，并提出了一个"地图阅读"系统，从这些地图中提取SAMs。我们还展示了从草图和平面图中提取的SAMs进行有效的现实世界导航。SAMs做出了一种权衡：通过受限于特定行为集（因此机器人动力学）来减少对度量信息的依赖。相比之下，几何地图需要准确的数据，不能从抽象输入构建，但足够丰富地表示世界，以使得具有各种机器人动力学的导航成为可能。在未来的工作中，我们打算在室外环境中测试我们的系统，并将更丰富的信息源纳入SAMs中。

打开APP阅读更多精彩内容