Progress-Think框架赋能机器人首次实现语义进展推理

描述

Progress-Think

机器人首次实现语义进展推理

零标签在指令结构中定位任务进展

在视觉语言导航(VLN)中,机器人长期缺乏一种关键能力:它能持续前进,却无法判断自己的任务推进到了哪一步。导航在空间中不断展开,画面节节推进,但模型并不知道自己在自然语言指令里处于什么阶段,因此容易漂移、兜圈,或做出难以解释的决策。我们认为,引入语义进展推理,是破解长程导航不稳定性的关键路径。

Progress-Think让机器人第一次具备语义层面的“进展坐标系”。我们首次揭示了视觉观测序列与指令语义之间的结构性关联,并将其提炼为可学习的进展信号,使模型无需额外标注即可学会思考:“我刚完成了什么”。通过自监督的进展对齐、进展引导决策以及进展一策略联合微调,仅凭单目相机输入,模型就能显著减少偏航并提升稳定性。Progress-Think在R2R-CE等标准数据集上取得领先表现,并进一步推动具身推理朝更明确的任务导向发展。

• 论文题目:

Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation

• 论文链接:

https://arxiv.org/abs/2511.17097

• 项目主页:

https://horizonrobotics.github.io/robot_lab/progress-think

从空间定位到进展定位

在视觉语言导航 (VLN) 中,机器人往往只会执行动作,却难以理解任务的推进。它能在空间中持续移动,却无法判断指令走到了哪一步;视觉观测不断更新,但任务完成度可能在它的认知里存在偏差。这种缺乏“语义位置感”的现象,使导航在遇到复杂场景时容易失去方向,出现漂移、兜圈或反复确认等不稳定行为。

视觉观测与指令语义呈协同单调推进;即随着观测累积(上),匹配的指令前缀同步单调扩展(下),后续进展(红)始终在早期进展(蓝)上递进。

Progress-Think的核心洞见在于:视觉语言导航本质上不仅是几何运动,而是执行一段结构化语言指令的语义进展过程。基于这一视角,我们揭示了视觉观测序列与指令语义之间存在协同单调关系:当画面从“床边”走向“门口”时,指令也应从“离开床边”自然推进到“朝门口转向”。我们进一步将这一结构规律提炼为任务层面的语义方位基准,为后续决策提供进展的建模。

零标注学习语义进展

为了在没有进展标注的情况下习得进展定位能力,我们设计了一个三阶段的学习框架。第一阶段,通过前缀对齐的自监督训练,模型在视觉轨迹中自动推断出与指令前缀的对应关系,使“当前观察对应哪一语义段落”成为一种内生表征,而非依赖外部标注。第二阶段,我们将进展表示作为上下文注入导航VLA策略,使决策在结合指令和观测的同时,也能参考自身的任务进展,从而形成明确的语义方向感。第三阶段,通过进展推理与导航VLA策略的联合优化,使模型在推理时保持一致、稳健的进展定位能力,并形成从语义对齐到动作生成的完整闭环。

地平线

Progress-Think模型在原有VLA结构上加入“进展推理模块”,用于判断当前指令完成到哪一步,并据此引导动作生成。整个系统通过三阶段、无需标注的流程完成训练:① 自监督的进展对齐;② 进展引导的策略预训练;③ 进展–策略联合优化。

在三阶段学习下,进展不再是一个回归值或附加标签,而演化为贯穿视觉理解、语义推理与行动决策的结构性信号。机器人由此首次具备真正的“进展定位”能力,能够在执行中持续推理“我完成到哪了”,并据此更清晰地决策“下一步该做什么”。

语义进展助力多步骤指令导航

具备可推理的进展定位后,机器人的行为方式发生了明显变化。它不再像传统模型那样给出与任务无关或时序混乱的描述,而是能够持续跟踪自己处于指令的哪一步。导航轨迹因此更稳、更有方向感,执行过程也呈现出清晰的语义连贯性,让人类能一眼看出它正在完成任务的哪一段。

地平线

GPT-4o和NVILA的描述经常跑偏,无法用于判断进展;消融版Progress-Think偶有幻觉,可靠性不足;而完整版Progress-Think能稳定推理出与真实进展对齐的结果。

在R2R-CE等基准上,Progress-Think在仅使用单目RGB的条件下,便超越了依赖全景或深度的传统方案,显著提升了长程任务的成功率、稳定性与可解释性。结果表明,长程导航的核心限制在于缺失语义进展这一结构性能力;当机器人能够理解“自己做到哪”,导航才真正具备持续、可靠的任务推进能力。

地平线

在R2R Val-Unseen上,Progress-Think在无深度、无全景、零外部数据的条件下依然取得最佳表现。

总结和展望

随着Progress-Think的引入,机器人第一次拥有了自身行为在任务语义层面的“进展坐标系”,能够在任务结构中定位自己,并以此为决策提供额外的进展约束。它在决策“下一步怎么走”前,先思考“我已经走到哪一步”,从而让长程行为更连贯、更可解释。我们期待将这种语义进展推理能力扩展至高层规划、多轮交互和自主探索,让具身智能逐步迈向真正的任务理解与长期推理。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分