小鹏发布 X-World 世界模型：已全面应用第二代VLA

Hobby观察 2026-04-14 6366

描述

电子发烧友网综合报道近日，小鹏汽车正式发布X-World 生成式世界模型技术报告，并同步公开 arXiv 技术论文，这是业内面向端到端自动驾驶、可工程化落地的多摄像头可控世界模型，目前已全面用于第二代 VLA 自动驾驶系统的研发、仿真与验证，标志着自动驾驶从 “路测驱动” 迈入 “世界模型驱动” 的新阶段。

何为 X-World？

X-World 是基于视频扩散生成技术构建的多视角生成式世界模型，可理解为自动驾驶系统的 “大脑预演模拟器”。它以车辆 7 路环视摄像头历史视频为输入，结合自车驾驶动作序列，直接在视频空间生成未来多摄像头观测画面，精准推演数秒后路况变化，实现可交互、可控制、可复现的虚拟驾驶环境模拟。

与传统 3D 高斯溅射（3DGS）仿真不同，X-World 突破“只能复现采集轨迹”的局限，即便车辆大幅变道、绕行、偏离原始路线，仍能稳定生成后续场景，彻底解决传统仿真覆盖不足、依赖实车测试的行业痛点。

X-World 基于WAN 2.2视频生成模型搭建，采用3D 因果 VAE + 定制 DiT 骨干架构，通过视角 - 时间自注意力机制，保障 7 路摄像头在几何、物体、运动上的跨视角高度一致。

模型采用两阶段训练：

第一阶段将预训练视频生成模型改造为全可控多摄世界模型，实现精准动作跟随与场景控制；

第二阶段通过分块因果架构 + 少步自强制学习，转为流式自回归模拟器，支持实时交互与长时序推演，最长可稳定生成24 秒连续画面无漂移。

其控制能力覆盖全场景维度：可精准控制自车加减速、转向；约束周边车辆、行人行为；锁定车道线、道路边界等静态元素；还能通过文本指令切换天气、昼夜、地域场景，实现雨天、黑夜、德国街道等风格一键变换。

已大规模应用，VLA2.0加速落地

依托 X-World，小鹏构建第二代 VLA 专属闭环评估引擎，仿真场景从一年前的3 万个暴增至 50 多万个，每日仿真测试里程等效3000 万公里实车测试，可高效评估碰撞率、目标达成进度、乘坐舒适性等核心指标，大幅降低测试成本、提升验证效率。

X-World 作为高可控仿真平台，可专项优化自动驾驶难点场景。针对路口行人“鬼探头”、拥堵路段变道犹豫等安全关键场景，通过反复交互式训练，快速提升系统应对极端情况的鲁棒性。

作为“生成式数据工厂”，X-World 可批量生成稀缺长尾场景数据，补齐训练样本短板；同时支持海外场景零样本风格迁移，快速生成符合当地道路规则、交通标识的训练数据，无需大量本地实车采集，助力小鹏自动驾驶全球化布局。

目前，X-World 已深度融入小鹏自动驾驶研发全流程，在闭环仿真、在线强化学习、数据生成等环节全面落地，并大规模用于第二代 VLA 的环境仿真与模型评估。第二代 VLA 自 3 月 19 日起已面向用户陆续推送，X-World 成为其安全、高效迭代的核心技术底座。

X-World 的发布，解决了端到端 VLA 时代可扩展评估、高效训练、安全验证的核心瓶颈，把世界模型从学术概念转化为支撑量产的基础设施。它让自动驾驶系统能在虚拟世界先学够，再走向真实道路，大幅提升研发速度与安全边界，为高阶智驾普及提供全新技术路径，也为全球自动驾驶行业的技术演进树立新标杆。

打开APP阅读更多精彩内容