Momenta的R7世界模型技术上有何特殊性？

智驾最前沿 2026-05-07 384

描述

[首发于智驾最前沿微信公众号]这两年自动驾驶领域出现了一个明显的技术转向，大家都开始谈端到端、世界模型，行业也从硬件堆料走向了大模型的比拼。2026年4月，Momenta发布了R7强化学习世界模型，将端到端与世界模型推到了一个更深的层次。Momenta的R7强化学习世界模型为自动驾驶行业带来了什么？

自动驾驶

端到端大模型改变了什么？

传统的自动驾驶路径是将驾驶任务拆分成多个独立环节，感知模块用于识别车道线、车辆、行人，再把识别结果交给预测模块去推测其他交通参与者的未来走向，规划控制模块则根据这些信息决定方向盘转多少、车速怎么调。这种模块化的好处是每个环节明确可控，坏处也很明显，那就是信息在模块之间传递时会丢失，各模块的目标也不一定对齐，整个系统的上限很难突破。

端到端大模型的思路完全不同，它不再做人工切分，而是把传感器采集到的图像、点云等原始信号直接输入一个统一的神经网络，输出的信息则是方向盘转角、油门刹车等控制指令。2024年，Momenta推出了一段式端到端，也就是感知和规划被整合到同一个大模型中，中间没有传统意义上的模块边界，这让自动驾驶汽车从看见到行动可以一步完成。

自动驾驶

图片源自：网络

端到端大模型也让系统的行为表现更连贯，更接近人类的驾驶习惯。人类开车的时候不会把看见前车刹车灯和决定收油减速拆成两个独立环节来思考，整个过程是融合且流畅的。一段式端到端模型从数据中学到的正是这种映射关系。它不再依赖手工编写的规则来处理跟车、变道、绕行，而是从大量真实驾驶数据中自己归纳出合理的驾驶策略，这一技术方案下，加速刹车更平顺，变道时机的选择也更自然。

自动驾驶

强化学习能让AI开车超过人类吗？

端到端模型虽然解决了一体化驱动决策的问题，但它有一个内生的局限，那就是训练方式主要依赖模仿学习。模仿学习，简单说就是让模型去看人类司机怎么开，然后学着开，它的效果上限就是人类的表现水平，而人类驾驶本身远远谈不上完美。对于一些极少遇到的复杂场景，人类数据本身就很稀缺，模型也就无从学起。

2025年，Momenta在端到端的基础上引入了强化学习，推出R6飞轮大模型。据相关报道，这是国内第一个将强化学习与端到端架构结合并真正跑通的方案。强化学习的机制和模仿学习迥然不同，系统不再只是照搬人类行为，而是在虚拟环境中自己摸索。它会尝试各种驾驶操作，如果安全顺利地完成了目标，就获得一个奖励信号；如果发生碰撞、压线或急刹，就会收到惩罚。通过海量的试错和反馈，系统可以自己找到一套更优的驾驶方式，这种方式完全可以超越人类预先提供的经验。

自动驾驶

图片源自：网络

用强化学习训练出来的模型，有几个看得见的能力提升。它对潜在风险的反应更快，比如在路口观察到侧方车辆有闯红灯迹象时，系统会提前微调车速以减少冲突可能，而不是等到危险迫近才刹停。此外，它的加减速控制和车道选择更偏向全局平顺，很少出现突兀的重刹或急促的变道。当这种模型在虚拟世界里跑过千万次交互场景之后，很多现实中万分之一概率才会碰到的边缘情况，它也了可以应付自如。

自动驾驶

世界模型到底在理解什么？

如果说端到端和强化学习解决的是怎么开的问题，那Momenta在2026年推出的R7世界模型，瞄准的则是一个更前置的问题，那就是AI是不是真的理解周围正在发生什么。

世界模型这个概念，可以从三个层级来理解。最底层叫世界模型预训练，这个阶段利用海量的真实驾驶数据，把物理规律和常识压缩进模型。像是车辆的动力特性、行人突然横移的运动轨迹、雨天路面摩擦力的变化，这些知识不是靠人工标注标记出来的，而是模型通过对大量视频数据的预测训练自己学到的。它学习的方式是尝试预测下一时刻的画面状态，即物体将移动到哪个位置、交通灯会不会切换、前车会不会变道等，预测得越准，说明它对物理世界的运行逻辑理解得越好。

中间层是世界模型仿真，预先训练好的世界模型可以在数字空间里充当一个高保真的驾驶模拟器。给模型一个自车动作，它就能推演出周围环境接下来会如何演变，这个能力让自动驾驶系统可以在虚拟环境中安全地经历大量如隧道口的眩光、夜间无灯乡道、高速公路上的落物等危险场景，而不必真的把实车放在危险场景中训练。

自动驾驶

图片源自：网络

最顶层则是在世界模型中进行强化学习，即把前两层构建的虚拟世界作为训练场，让强化学习在这个高度真实的世界里充分探索。这样一来，系统就不再是在一个死记硬背的数据集上做训练，而是在一个懂得物理规律的模拟社会里反复推演。

可以想象一个场景，对于前方车辆掉下一箱苹果，传统端到端模型如果没见过这个画面，可能完全不知所措；而R7世界模型因为理解物体滚落这一物理过程本身的规律（苹果会沿路面向前翻滚、扩散、逐渐停止），就可以在不必事先见过这个具体场景的情况下，做出平稳减速和合理绕行的决策。这种能力的本质，是从记忆走向了推理。

自动驾驶

图片源自：网络

曹旭东在发布R7时这样解释他们的逻辑，预测是智能进化的核心基石。大语言模型通过预测下一个词来压缩数字世界的常识，而世界模型则通过预测物理世界未来的状态来理解物体的属性和因果关系，这就要求系统不但要看得见，还要想得明白。

自动驾驶

从开车到理解世界，背后是一场能力重塑

沿着这条技术路线推演下来，Momenta过去几年做的事情其实有一条清晰的主线。一段式端到端让系统掌握了从感知直达行动的能力，强化学习让它在自己的试错中突破了人类行为的上限，而R7世界模型则试着把物理常识和因果推理真正放进AI的底层认知里。

三层技术叠加在一起，让自动驾驶系统从一个执行规则的工具，逐步变成一个能理解环境规律、预判未来演变、自主做出决策的智能体。它不再让车在固定道路上不出错，而是让车在面对从未见过的陌生情境时，仍然能够基于对世界运行方式的理解，做出稳妥的判断。如果这条路走通，自动驾驶的安全天花板会被打开一个全新的维度。

审核编辑黄宇

打开APP阅读更多精彩内容