面向视觉语言导航的任务驱动式地图学习框架MapDream介绍

地平线HorizonRobotics 2026-03-02 680

描述

MapDream

地图不再是专家设计的产物

而是在任务目标下学习出的决策参考

在视觉语言导航(VLN)中，地图长期作为独立模块构建，并通过固定接口交由导航策略使用。无论是BEV网格、拓扑图还是语义记忆模块，这些表示大多脱离策略学习而设计。结果是，机器人即使掌握场景的信息，也仍可能绕行甚至偏离目标，因为地图中编码的，并不一定是决定导航成功的关键信息。

我们认为，VLN迈向长期可靠决策的关键一步，是让地图表示进入训练闭环，由任务目标在学习阶段主导其形成方式，而不再停留在固定规则或外部模块的层面。

MapDream正是沿着这一方向提出的：我们将地图构建纳入端到端训练框架，在大规模数据支撑下，通过监督预训练与强化学习联合微调，使空间表示在训练阶段始终围绕导航目标展开，并与策略决策紧密耦合，从而形成真正服务于长程指令执行的核心中间表示。

• 论文题目：

MapDream: Task-Driven Map Learning for Vision-Language Navigation

• 论文链接：

https://arxiv.org/abs/2602.00222

• 项目主页：

https://horizonrobotics.github.io/robot_lab/mapdream

从专家设计到任务主导

传统VLN系统中的地图通常依赖专家规则或独立建图模块生成，其语义与几何结构在训练过程中保持固定。导航策略只能被动消费这些表示，无法反向影响地图该强调哪些空间线索。MapDream打破了这一结构：我们在大规模数据支撑下，将地图构建纳入端到端训练框架，通过监督预训练与强化学习联合微调，使空间表示直接围绕导航目标学习。VLN中真正重要的，并非完整复原环境，而是为当前任务生成最有价值的空间接口。

机器人

MapDream将地图表示纳入训练闭环，由任务直接塑造，而非专家预设。

在MapDream中，地图被重新定义为一种可学习的中间表示。系统接收多帧单目观测与自然语言指令，自回归生成任务相关的BEV表示，仅保留三类与决策高度相关的要素——可通行结构、目标相关距离以及语义锚点。这种紧凑表达被输入到VLN策略中用于多步动作预测，并在强化学习阶段与策略同步优化，使最终得到的地图分布与成功导航行为保持一致。

两阶段训练

让地图真正进入学习闭环

MapDream采用两阶段训练流程，使地图从专家先验出发，最终由任务目标决定。

机器人

MapDream采用两阶段训练：先建立建图—控制接口，再以强化学习联合优化，使地图服务于导航决策而非几何重建。

第一阶段是监督预训练。通过轻量化的任务驱动BEV监督，模型学习基础空间抽象，同时训练策略学会使用这些地图进行决策，从而建立稳定的“建图—控制”接口。

第二阶段是强化学习联合微调。地图模块与VLN策略在统一导航奖励下同步更新。此时地图不再仅追求几何一致性，而是被任务回报直接牵引，系统性地调整为最有利于完成指令的空间表达。

通过这一闭环过程，地图真正成为由任务目标主导学习的核心表示。

任务决定地图

改变机器人的导航方式

当地图表示进入学习闭环后，机器人的行为模式发生了显著变化。在长程指令执行中，它不再仅依赖局部观测，而是借助生成的BEV抽象形成更稳定的全局方向感。路径更加贴近示范轨迹，回溯与绕行明显减少，整体执行呈现出更强的空间连贯性。

机器人

MapDream仅凭单目生成紧凑BEV地图，紧贴真实路径，优于在模糊路口易偏离的无地图基线。

在标准VLN基准中，MapDream在单目设置下取得领先结果，并在跨数据集泛化与真实机器人实验中保持稳定表现。这表明，由任务目标塑造的地图能够捕捉具有迁移性的空间结构，而不仅仅适配单一环境。

机器人

在R2R-CE与RxR-CE Val-Unseen上，MapDream单目性能最佳，路径效率优于全景方法。

总结与展望

MapDream重新界定了视觉语言导航中“地图”的角色。它不再是专家规则主导的静态模块，而是一种在训练阶段由任务目标塑造、并与决策系统端到端耦合的生成式空间接口。机器人在决定“下一步往哪走”之前，先通过地图理解当前最关键的空间关系，从而形成更高效、更稳定的长程决策能力。

未来，我们希望将这一任务驱动地图学习范式扩展到更长期的空间记忆、更复杂的交互任务以及真实环境中的自主探索，为具身智能构建真正以任务目标为核心的空间认知系统。

打开APP阅读更多精彩内容