面向视觉语言导航的任务驱动式地图学习框架MapDream介绍

描述

MapDream

地图不再是专家设计的产物

而是在任务目标下学习出的决策参考

在视觉语言导航(VLN)中,地图长期作为独立模块构建,并通过固定接口交由导航策略使用。无论是BEV网格、拓扑图还是语义记忆模块,这些表示大多脱离策略学习而设计。结果是,机器人即使掌握场景的信息,也仍可能绕行甚至偏离目标,因为地图中编码的,并不一定是决定导航成功的关键信息。

我们认为,VLN迈向长期可靠决策的关键一步,是让地图表示进入训练闭环,由任务目标在学习阶段主导其形成方式,而不再停留在固定规则或外部模块的层面。

MapDream正是沿着这一方向提出的:我们将地图构建纳入端到端训练框架,在大规模数据支撑下,通过监督预训练与强化学习联合微调,使空间表示在训练阶段始终围绕导航目标展开,并与策略决策紧密耦合,从而形成真正服务于长程指令执行的核心中间表示。

• 论文题目

MapDream: Task-Driven Map Learning for Vision-Language Navigation

• 论文链接

https://arxiv.org/abs/2602.00222

• 项目主页:

https://horizonrobotics.github.io/robot_lab/mapdream

从专家设计到任务主导

传统VLN系统中的地图通常依赖专家规则或独立建图模块生成,其语义与几何结构在训练过程中保持固定。导航策略只能被动消费这些表示,无法反向影响地图该强调哪些空间线索。MapDream打破了这一结构:我们在大规模数据支撑下,将地图构建纳入端到端训练框架,通过监督预训练与强化学习联合微调,使空间表示直接围绕导航目标学习。VLN中真正重要的,并非完整复原环境,而是为当前任务生成最有价值的空间接口。

机器人

MapDream将地图表示纳入训练闭环,由任务直接塑造,而非专家预设。

在MapDream中,地图被重新定义为一种可学习的中间表示。系统接收多帧单目观测与自然语言指令,自回归生成任务相关的BEV表示,仅保留三类与决策高度相关的要素——可通行结构、目标相关距离以及语义锚点。这种紧凑表达被输入到VLN策略中用于多步动作预测,并在强化学习阶段与策略同步优化,使最终得到的地图分布与成功导航行为保持一致。

两阶段训练

让地图真正进入学习闭环

MapDream采用两阶段训练流程,使地图从专家先验出发,最终由任务目标决定。

机器人

MapDream采用两阶段训练:先建立建图—控制接口,再以强化学习联合优化,使地图服务于导航决策而非几何重建。

第一阶段是监督预训练。通过轻量化的任务驱动BEV监督,模型学习基础空间抽象,同时训练策略学会使用这些地图进行决策,从而建立稳定的“建图—控制”接口。

第二阶段是强化学习联合微调。地图模块与VLN策略在统一导航奖励下同步更新。此时地图不再仅追求几何一致性,而是被任务回报直接牵引,系统性地调整为最有利于完成指令的空间表达。

通过这一闭环过程,地图真正成为由任务目标主导学习的核心表示。

任务决定地图

改变机器人的导航方式

当地图表示进入学习闭环后,机器人的行为模式发生了显著变化。在长程指令执行中,它不再仅依赖局部观测,而是借助生成的BEV抽象形成更稳定的全局方向感。路径更加贴近示范轨迹,回溯与绕行明显减少,整体执行呈现出更强的空间连贯性。

机器人

MapDream仅凭单目生成紧凑BEV地图,紧贴真实路径,优于在模糊路口易偏离的无地图基线。

在标准VLN基准中,MapDream在单目设置下取得领先结果,并在跨数据集泛化与真实机器人实验中保持稳定表现。这表明,由任务目标塑造的地图能够捕捉具有迁移性的空间结构,而不仅仅适配单一环境。

机器人

在R2R-CE与RxR-CE Val-Unseen上,MapDream单目性能最佳,路径效率优于全景方法。

总结与展望

MapDream重新界定了视觉语言导航中“地图”的角色。它不再是专家规则主导的静态模块,而是一种在训练阶段由任务目标塑造、并与决策系统端到端耦合的生成式空间接口。机器人在决定“下一步往哪走”之前,先通过地图理解当前最关键的空间关系,从而形成更高效、更稳定的长程决策能力。

未来,我们希望将这一任务驱动地图学习范式扩展到更长期的空间记忆、更复杂的交互任务以及真实环境中的自主探索,为具身智能构建真正以任务目标为核心的空间认知系统。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分