为什么现阶段各车企会不约而同选择端到端？

智驾最前沿 2026-06-04 611

描述

[首发于智驾最前沿微信公众号]2026年5月，特斯拉FSD累计行驶里程突破90亿英里，其基于端到端架构的V13版本在复杂城市路况下的平均接管间隔已降至每1000英里0.3次，安全性约为美国普通人类驾驶员的8倍。

与此同时，小鹏、理想、蔚来等国内车企纷纷公布了自身端到端大模型的上车计划，Waymo、Cruise等Robotaxi玩家也在其最新技术路线中强化了神经网络端到端化的比重。一个曾经被模块化规则统治了数十年的领域，为何在最近两年间出现了如此一致的迁移？

自动驾驶

为什么传统模块化架构不再可靠了？

自动驾驶技术在过去的数十年间，始终沿着一条高度工程化的路径演进，早期的系统架构采用模块化的设计理念。这种架构将自动驾驶这一复杂的任务拆解为若干个功能明确的子模块，其中包括环境感知、定位导航、行为预测、决策规划以及车辆控制等。

每一个模块内部会依靠严密的数学逻辑和显式编程来定义车辆的行为。如感知模块利用计算机视觉算法识别障碍物，而决策规划模块则依据预设的交通规则来计算行驶轨迹。

这种基于规则的方法在技术发展的初期展现出了极高的实用价值，由于其逻辑链条清晰，系统具有极强的可解释性。当车辆在行驶中出现异常行为时，开发团队可以追溯到具体的模块甚至具体的某一行代码，快速定位故障原因并进行修正。此外，模块化设计允许不同专业的团队并行开发，各模块之间通过标准化的接口进行信息传递，这在一定程度上提升了工程开发的灵活性。

自动驾驶

图片源自：网络

但随着自动驾驶场景从封闭园区、高速公路向复杂的城市街道迈进，传统规则驱动架构的局限性开始集中爆发，规则穷尽的问题让智驾的事故率不断攀升。截至2025年4月，NHTSA数据显示搭载L2级辅助驾驶的车辆每百万英里事故率达7.9起，较纯人工驾驶高出1.6倍，其中在施工路段、暴雨天气等场景，系统误判率超过25%。而根据NHTSA截至2026年2月17日的SGO数据库最新统计，L2级辅助驾驶系统已累计收录931起独立事故，其中14起涉及死亡，碰撞平均动能约为L3级以上自动驾驶车辆的56倍。

现实世界的道路状况千变万化，更存在着无穷无尽的极端状况，形状怪异的施工围栏、在路边嬉戏突然冲出的小孩，或是复杂的环岛交通等场景，若依靠人为编写的If-Then逻辑，根本无法覆盖所有可能的驾驶场景。当系统遇到规则库之外的情况时，就会表现出驾驶生硬、频繁接管甚至决策失效的问题。

除了规则难以覆盖长尾场景外，传统架构中最为致命的问题在于信息损耗。在模块化系统中，传感器捕捉到的丰富原始数据在流经感知、预测、规划等层级时，必须被转化为固定的数据格式。如感知模块为了方便后续调用，会将复杂的路况抽象为简单的语义信息。这种处理方式虽然降低了计算复杂量，但不可避免地丢失了原始图像中的动态特征、光影细节以及环境语境。

这种现象就像是有些人玩的传话游戏，第一层传递的信息是精准的，但经过多个环节的层层抽象和有损压缩，最终传达到控制端的信息可能已经失真，导致系统难以捕捉到潜在的动态风险，从而限制了自动驾驶性能的进一步提升。

自动驾驶

端到端大模型有何优势？

为了解决传统架构的信息瓶颈和规则依赖问题，自动驾驶正逐步朝着端到端（End-to-End）大模型的方向发展。

端到端是利用大规模神经网络取代原本分离的模块，将传感器的原始输入数据（如摄像头画面、激光雷达点云）直接转换为车辆的控制动作输出（如转向角、油门踩踏深度和制动力度），这种系统不再依赖人为定义的接口，实现了感知决策的一体化。端到端大模型之所以能够展现出超越传统规则架构的优势，是因为它模拟了人类司机的学习过程。人类在驾驶时，并不是在脑中运行成千上万条如果……那么……的规则，而是基于一种长期的肌肉记忆和对环境的直觉感知。

自动驾驶

端到端架构示意图，图片源自：网络

端到端模型通过观察数百万小时的高水平人类驾驶视频，自主地从中提取驾驶规律。特斯拉在FSD V12版本中就彻底放弃了之前版本中超过30万行的C++代码，转而采用一个学习了海量真实驾驶场景的神经网络模型。这使得车辆在面对复杂的环岛或模糊的社会博弈场景时，能够表现出更加拟人化的驾驶体验。

大模型带来的另一项核心优势是极强的泛化能力，得益于Transformer等先进架构在处理序列数据方面的卓越表现，端到端大模型能够捕捉到复杂的时空关联。特斯拉V13及V14版本进一步加入了基于Transformer架构的时序处理能力，构建了一个长达15秒左右的时间缓冲区，系统能够记住过去十几秒内每一个动态物体的运动轨迹，即使行人或骑行者短暂被遮挡，AI也能依据其消失前的速度和方向推算其当前位置及可能的意图，这正是FSD能够实现在行人踏入道路之前就预判其意图的核心技术基础。

根据特斯拉官方统计，车辆在FSD监督模式下记录一次重大碰撞事故的行驶里程高达530万英里，而同期美国驾驶员平均每66万英里就会发生一次重大碰撞事故。

也就是说，FSD的安全性达到了美国普通人类驾驶员的8倍。在FSD V13版本经过1000万英里真实路测后，其在复杂城市路况下的接管率已降至每1000英里仅需0.3次，超过人类驾驶员平均水平。同时，系统响应延迟从120毫秒大幅缩短至48毫秒，复杂路口通过率从85%提升至98.5%。这一数据也体现出端到端的安全性。

自动驾驶

图片源自：网络

端到端大模型的成功其实依赖于三个核心要素，即海量高质量数据、强大的计算算力以及先进的模型算法。以数据为例，与大语言模型可以从互联网上轻松获取文字数据不同，训练自动驾驶大模型需要极其昂贵的真实驾驶视频数据。

截至2025年底，FSD的累计训练里程已突破70亿英里，其中城市道路训练里程超25亿英里，全球特斯拉车队还在以数千万英里/天的速度持续积累数据。2026年4月，FSD累计行驶里程正式突破90亿英里，正快速接近马斯克此前强调的100亿英里数据门槛。特斯拉在全球各地近200万辆的车队，每天也会提供约1600亿帧视频用于训练。

自动驾驶

端到端大模型存在的问题及解决方案

相信有很多人看到前文的介绍，会好奇，既然端到端这么厉害了，那为啥现在还没有全面开放自动驾驶？其实端到端一直存在黑盒特性。由于模型内部逻辑并非人类可直接读懂的代码，如何确保其在任何极端情况下都能维持安全，成为了技术商业化落地前的一道难关。

2025年12月，旧金山因变电站火灾导致大面积停电，交通信号灯失效，Waymo无人车队因无法评估无信号灯路口的风险而集体停滞，导致城市交通枢纽瘫痪数小时。同年5月，一辆Waymo无人车在圣安东尼奥直接驶入洪水淹没的道路，被急流冲走，暴露了感知与决策算法在极端气象条件下的局限性。2025年7月至11月，特斯拉在奥斯汀的Robotaxi车队累计行驶约50万英里，却发生了9起碰撞事故，事故率相当于美国普通人类驾驶员的9倍。

更为棘手的是，即便引入了远程操作员作为安全冗余，这一方案也并非万无一失。在特斯拉向NHTSA提交的17起Robotaxi事故报告中，有两起事故正是由远程操作员操作不当导致的，2025年7月，一名远程操作员接管后以8英里/小时的速度将车开上路沿，撞上金属栅栏；2026年1月，类似场景重演，远程操作员以9英里/小时的速度径直驶入施工路障。屏幕后的低速驾驶对距离感知和延迟补偿提出了极高要求，人类操作员的空间判断并未展现出优于AI的可靠性。

同时，FSD系统的空间感知问题也多次暴露，在无保护左转、倒车入库等低速非标障碍物识别场景中，纯视觉方案在检测低矮、细长或无纹理物体时存在天然劣势。报告中的多数事故为第三方追尾，原因恰恰是自动驾驶车辆因严格遵守交规而频繁刹停，其过于人类不友好的刹车逻辑反而增加了被后车追尾的概率。

自动驾驶

图片源自：网络

为了应对黑盒AI的安全问题，世界模型与安全护栏（Safety Guardrails）架构应运而生。

世界模型被视为自动驾驶系统的大脑预演器，它不再是简单的感知或执行，而是通过学习海量数据，在内部构建一个符合物理规律的虚拟世界。世界模型具备一种被称为反事实推理的能力，在车辆采取实际行动之前，可以在脑中模拟出多种可能的未来情景。

如面对一个正在路边徘徊的行人，世界模型可以推演出行人可能横穿马路，也可能继续停留在原地，并针对每种可能性评估风险。这种能力不仅让系统具备了前瞻性的预测，更重要的是，它可以利用生成式大模型的技术，人为地制造出真实世界中罕见的极端场景，供驾驶模型在虚拟环境中进行千锤百炼的训练。

为了确保这种黑盒AI不会在关键时刻偏离航线，有技术方案为端到端模型装上了安全护栏。这套架构采用了类似于人脑的快慢思考机制。端到端模型作为系统1，负责快速处理视觉信号并生成丝滑的轨迹；而一套独立、简洁且基于明确物理规则的验证层则作为系统2，充当最后的监督者。

通过将世界模型的推演力与安全护栏的约束力相结合，自动驾驶系统在拥有了端到端大模型所带来的灵活性和拟人性的同时，也保留了传统工业系统应有的确定性与安全性。

自动驾驶

最后的话

随着6G网络技术的发展，超高速率与亚毫秒级的延迟将支持车辆实现更强大的车路协同，极大地扩展其超视距感知边界。2026年3月，中国自动化学会正式发布《基于先进移动通信的协同式智能网联汽车》与《复杂道路自动驾驶》两大系列标准，填补了协同驾驶测试、复杂道路决策等关键环节的标准空白。与此同时，工信部已向IMT-2030（6G）推进组批复6GHz频段6G试验频率使用许可，6G技术研发正式迈入场景化测试验证的新阶段，在6G网络环境下，车辆的数据传输速率能达到每秒1太比特，相较于5G快了100倍。

在可预见的未来，单车智能不再是自动驾驶的唯一答案，端到端大模型作为这一生态系统的智慧引擎，将持续通过海量数据驱动的自我博弈与迭代，与逐步完善的道路基础设施协同发力，共同推动人类社会步入一个安全、高效且完全自动化的出行新纪元。

审核编辑黄宇

打开APP阅读更多精彩内容