特斯拉监督版FSD登陆中国被广泛关注，技术架构有啥特点？

智驾最前沿 2026-05-23 169

描述

[首发于智驾最前沿微信公众号]2026年5月21日，特斯拉官方宣布了监督版FSD的最新布局，其中明确提到监督版FSD可以在中国使用。消息出来后，引起了大家的广泛关注，智驾最前沿也第一时间进行了报道。

说实话，关于FSD入华的传闻在过去一年出现过好几次，而这次官方下场确认，也让这一猜测得到了证实。从2024年V12版本彻底转向端到端神经网络，到V14整合多模态大模型，FSD这两年的发展，其底层技术架构已经实现了两次跨越式升级，与最初基于规则的系统相比，如今的FSD其实已经换了一副骨架。而监督版FSD在北美大规模推送后积累了大量实测数据，也让外界对它在复杂中国道路上的表现有了更多技术层面的期待。

自动驾驶

特斯拉的AI化改造，究竟走到了哪一步？

传统自动驾驶系统一直沿用模块化设计，把开车这件事拆成感知、预测、规划、控制四个独立环节，每个环节各有一套算法，彼此之间靠人工定义的接口交换数据。感知模块看到行人，就输出一个带速度标签的矩形框，后面的预测和规划模块再依据这个框去做推算和路径选择。这种方式工程上可控，每个模块可以单独开发和测试，但问题也出在这里，像是一个横穿马路的行人，他的注意力在哪、有没有看到来车、下一步可能怎么走，这些信息到了矩形框里就全丢了。

特斯拉在V11时期攒下了超过30万行C++控制代码，试图靠堆规则弥补信息传递中的损失，但现实道路的复杂程度是任何规则库都覆盖不过来的。2024年的V12版本推翻了这套架构，直接把8颗摄像头的原始像素输入映射到方向盘转角、油门和刹车指令，中间不再保留人为设定的模块边界。这一步把之前那条感知归感知、控制归控制的隔离带拆掉了，让整个系统能够作为一个整体来优化。

自动驾驶

图片源自：网络

真正把这一步推到更彻底位置的，是今年4月在美国开始推送的V14.3版本，此前智驾最前沿已经和大家详细聊过V14.3,这里就简单概括下。FSD V14.3被马斯克称为通往全自动驾驶的最后一块拼图，它完成了一项此前一直没有触及的底层工作，用AI神经网络彻底替换掉控制车辆的最后那30万行C++代码。要知道，在此之前，哪怕FSD的感知和规划模块已经大量用了神经网络，最终负责打方向盘、踩油门刹车的控制层还是靠手写规则在跑。这也是为什么之前版本会出现黄灯突然急刹、遇到停车标志反复制动这类不够自然的操作。

为了让神经网络直接接管底层控制，特斯拉在V14.3里基于MLIR（多层次中间表示）编译器框架从零重写了AI编译器与运行环境。MLIR这套框架最早由曾在特斯拉短暂执掌过Autopilot团队的克里斯·拉特纳主导开发，现在用在了自家车上，相当于给神经网络的推理效率做了一次全面重构。官方给出的数据是，这一架构整体反应速度提升了20%。在时速80公里的紧急避让场景里，20%的反应提升意味着缩短了一米的刹车距离。

V14.3的网络参数量比前代增加了大约10倍。参数量增长不仅仅意味着模型变大了，更关键的是模型现在可以容纳更丰富的环境信息。V14.3还搭载了自回归Transformer技术，给系统带来了3到5秒的时空记忆和5到10秒的路况预判能力，让它能记住几秒前突然切入的车辆并据此调整接下来的轨迹，而不会每次决策都像失忆一样重新来过。

自动驾驶

纯视觉方案加上语言推理，这条路能通吗？

FSD一直坚持纯视觉方案，在硬件上不搭载激光雷达，不依赖高精地图。HW4.0平台把摄像头像素从HW3.0的120万提到了500万，前向用了双目感知配置，一共8颗摄像头做360度覆盖，视频输入可以跑到36Hz全分辨率。芯片算力大约720TOPS，CPU给到了20个核心，分成5个集群运行，给端到端模型的实时推理提供支撑。

此外，FSD还使用占用网络作为理解三维环境的工具，和传统目标检测先识别再避让的逻辑不同，占用网络直接把空间切成一个个体素网格，只判断每个网格有没有被东西占据，不关心占据网格的是什么。这个思路绕开了目标识别对有限类别标签的依赖，让系统可以应对训练集里从没出现过的障碍物，像是路上掉落的货物、临时摆的锥桶、翻倒的非机动车，都能当作有东西挡着来统一处理。在这个基础之上，特斯拉还升级了骨骼追踪模型，能捕捉人体关节点的动作，区分行人是在路边看手机还是正打手势示意通行。

自动驾驶

图片源自：网络

到了V14阶段，FSD在感知和决策上也有了提升，V12做的是看见就反应的直觉式驾驶，但这种直觉在面对复杂路况、需要逻辑推演的时候会有短板，V14则引入了VLA架构，让语言进入了驾驶决策闭环。VLA本质上是把视觉感知、语言理解和动作控制整合在同一个模型里，模型在做驾驶决策的同时会并行输出一条思维链，执行如我减速是因为前方行人正在过马路或者我在等红灯，还有3.2秒转绿这样的逻辑。

这些文本并不是事后贴上去的解释标签，而是在前向推理时就同步生成的，和驾驶决策共享同一个特征空间。语言在这里承载了两个实质性的功能，一是推理能力，如到了施工路段，FSD不光能识别道路封闭的标志，还能通过上下文推断出从左边绕过去的结论；二是可解释性，也就是给端到端的黑箱模型，开了观察窗。

有一点要提一下的是，特斯拉在上海临港建成了中国AI训练中心，2026年2月已经投入使用，和自建的本土化数据中心打通后，中国道路数据可以做到采集、存储、训练、部署全流程不出境。这套本地闭环加上与百度地图的合作，是目前FSD进入中国市场在合规层面的关键支撑。根据特斯拉CFO在2026年一季度财报电话会上的说法，目标是在第三季度拿到监管部门批准。

自动驾驶

图片源自：网络

还有值得注意的一个动向是，马斯克在今年Q1财报会上提到，FSD V15最快可能在年底到明年初推出，届时将对软件架构做全面重构，目标是在无人监管的情况下大幅提升安全水平。与此同时，特斯拉的训练基础设施也在持续扩大，自研Dojo 3芯片项目已经重启，Cortex 2算力集群也已上线运行训练任务。看得出来，V14.3远不是终点，这整套系统的架构还在持续演进中。

自动驾驶

和华为、小鹏放到一起比，技术架构有何不同？

FSD进入中国，必然会对国内企业的智驾发展带来直接冲击，回看现在国内的智驾发展路线，华为、小鹏就是比较有代表的两个方向。

华为ADS走的是多传感器融合路线，最新的ADS 5.0在2026年4月刚发布。这套系统在感知上用了摄像头、激光雷达和毫米波雷达的多重冗余，搭载的是目前量产里规格最高的896线双光路激光雷达，暗光下能识别122米外14厘米高的低矮障碍物。ADS 5.0还升级到了WEWA 2.0，云端引入了多智能体博弈机制和在线强化学习，把路上的其他车辆、行人都当作独立的智能体来做交互推演，训练强度和效率各提升了10倍。车端则引入了安全风险场理论，通过动能场、势能场和行为场实时画出动态风险热力图，碰撞风险降低了50%。另外华为还发了面向自动驾驶的操作系统乾崑OS，在底层基础设施上做标准化布局。总的来说，华为的选择是在稳健里多留几分安全冗余，策略上偏保守，宁可多等一轮红灯也不冒进。

自动驾驶

图片源自：网络

小鹏XNGP和特斯拉更接近，同样坚持纯视觉方案和端到端模型（对于这两者的差异，后面会详细和大家聊一聊）。小鹏在2025年发布了第二代VLA模型，不过和特斯拉的VLA做法不同，小鹏的第二代VLA跳过了语言作为中间转译这一步，直接做视觉信号到动作指令的端到端映射，目标是降低推理延迟和算力开销。从这条路径来看，小鹏追求的是让模型足够轻、足够快，能直接跑在车上。

把三条路放在一起看，差异和各自的取舍就很清楚了。特斯拉的VLA是语言和控制共享同一个特征空间，让语言参与推理但不主导决策。小鹏则干脆取消了语言环节，更贴近工程落地的节奏。华为在感知上保留了多传感器冗余，追求物理层面的安全兜底。需要提醒的是，到现在为止，三家在法律定位上都还属于L2级辅助驾驶，没有谁对谁构成代际碾压。

审核编辑黄宇

打开APP阅读更多精彩内容