特斯拉监督版FSD登陆中国被广泛关注,技术架构有啥特点?

描述

[首发于智驾最前沿微信公众号]2026年5月21日,特斯拉官方宣布了监督版FSD的最新布局,其中明确提到监督版FSD可以在中国使用。消息出来后,引起了大家的广泛关注,智驾最前沿也第一时间进行了报道。

说实话,关于FSD入华的传闻在过去一年出现过好几次,而这次官方下场确认,也让这一猜测得到了证实。从2024年V12版本彻底转向端到端神经网络,到V14整合多模态大模型,FSD这两年的发展,其底层技术架构已经实现了两次跨越式升级,与最初基于规则的系统相比,如今的FSD其实已经换了一副骨架。而监督版FSD在北美大规模推送后积累了大量实测数据,也让外界对它在复杂中国道路上的表现有了更多技术层面的期待。

自动驾驶

特斯拉的AI化改造,究竟走到了哪一步?

传统自动驾驶系统一直沿用模块化设计,把开车这件事拆成感知、预测、规划、控制四个独立环节,每个环节各有一套算法,彼此之间靠人工定义的接口交换数据。感知模块看到行人,就输出一个带速度标签的矩形框,后面的预测和规划模块再依据这个框去做推算和路径选择。这种方式工程上可控,每个模块可以单独开发和测试,但问题也出在这里,像是一个横穿马路的行人,他的注意力在哪、有没有看到来车、下一步可能怎么走,这些信息到了矩形框里就全丢了。

特斯拉在V11时期攒下了超过30万行C++控制代码,试图靠堆规则弥补信息传递中的损失,但现实道路的复杂程度是任何规则库都覆盖不过来的。2024年的V12版本推翻了这套架构,直接把8颗摄像头的原始像素输入映射到方向盘转角、油门和刹车指令,中间不再保留人为设定的模块边界。这一步把之前那条感知归感知、控制归控制的隔离带拆掉了,让整个系统能够作为一个整体来优化。

自动驾驶

图片源自:网络

真正把这一步推到更彻底位置的,是今年4月在美国开始推送的V14.3版本,此前智驾最前沿已经和大家详细聊过V14.3,这里就简单概括下。FSD V14.3被马斯克称为通往全自动驾驶的最后一块拼图,它完成了一项此前一直没有触及的底层工作,用AI神经网络彻底替换掉控制车辆的最后那30万行C++代码。要知道,在此之前,哪怕FSD的感知和规划模块已经大量用了神经网络,最终负责打方向盘、踩油门刹车的控制层还是靠手写规则在跑。这也是为什么之前版本会出现黄灯突然急刹、遇到停车标志反复制动这类不够自然的操作。

为了让神经网络直接接管底层控制,特斯拉在V14.3里基于MLIR(多层次中间表示)编译器框架从零重写了AI编译器与运行环境。MLIR这套框架最早由曾在特斯拉短暂执掌过Autopilot团队的克里斯·拉特纳主导开发,现在用在了自家车上,相当于给神经网络的推理效率做了一次全面重构。官方给出的数据是,这一架构整体反应速度提升了20%。在时速80公里的紧急避让场景里,20%的反应提升意味着缩短了一米的刹车距离。

V14.3的网络参数量比前代增加了大约10倍。参数量增长不仅仅意味着模型变大了,更关键的是模型现在可以容纳更丰富的环境信息。V14.3还搭载了自回归Transformer技术,给系统带来了3到5秒的时空记忆和5到10秒的路况预判能力,让它能记住几秒前突然切入的车辆并据此调整接下来的轨迹,而不会每次决策都像失忆一样重新来过。

自动驾驶

纯视觉方案加上语言推理,这条路能通吗?

FSD一直坚持纯视觉方案,在硬件上不搭载激光雷达,不依赖高精地图。HW4.0平台把摄像头像素从HW3.0的120万提到了500万,前向用了双目感知配置,一共8颗摄像头做360度覆盖,视频输入可以跑到36Hz全分辨率。芯片算力大约720TOPS,CPU给到了20个核心,分成5个集群运行,给端到端模型的实时推理提供支撑。

此外,FSD还使用占用网络作为理解三维环境的工具,和传统目标检测先识别再避让的逻辑不同,占用网络直接把空间切成一个个体素网格,只判断每个网格有没有被东西占据,不关心占据网格的是什么。这个思路绕开了目标识别对有限类别标签的依赖,让系统可以应对训练集里从没出现过的障碍物,像是路上掉落的货物、临时摆的锥桶、翻倒的非机动车,都能当作有东西挡着来统一处理。在这个基础之上,特斯拉还升级了骨骼追踪模型,能捕捉人体关节点的动作,区分行人是在路边看手机还是正打手势示意通行。

自动驾驶

图片源自:网络

到了V14阶段,FSD在感知和决策上也有了提升,V12做的是看见就反应的直觉式驾驶,但这种直觉在面对复杂路况、需要逻辑推演的时候会有短板,V14则引入了VLA架构,让语言进入了驾驶决策闭环。VLA本质上是把视觉感知、语言理解和动作控制整合在同一个模型里,模型在做驾驶决策的同时会并行输出一条思维链,执行如我减速是因为前方行人正在过马路或者我在等红灯,还有3.2秒转绿这样的逻辑。

这些文本并不是事后贴上去的解释标签,而是在前向推理时就同步生成的,和驾驶决策共享同一个特征空间。语言在这里承载了两个实质性的功能,一是推理能力,如到了施工路段,FSD不光能识别道路封闭的标志,还能通过上下文推断出从左边绕过去的结论;二是可解释性,也就是给端到端的黑箱模型,开了观察窗。

有一点要提一下的是,特斯拉在上海临港建成了中国AI训练中心,2026年2月已经投入使用,和自建的本土化数据中心打通后,中国道路数据可以做到采集、存储、训练、部署全流程不出境。这套本地闭环加上与百度地图的合作,是目前FSD进入中国市场在合规层面的关键支撑。根据特斯拉CFO在2026年一季度财报电话会上的说法,目标是在第三季度拿到监管部门批准。

自动驾驶

图片源自:网络

还有值得注意的一个动向是,马斯克在今年Q1财报会上提到,FSD V15最快可能在年底到明年初推出,届时将对软件架构做全面重构,目标是在无人监管的情况下大幅提升安全水平。与此同时,特斯拉的训练基础设施也在持续扩大,自研Dojo 3芯片项目已经重启,Cortex 2算力集群也已上线运行训练任务。看得出来,V14.3远不是终点,这整套系统的架构还在持续演进中。

自动驾驶

和华为、小鹏放到一起比,技术架构有何不同?

FSD进入中国,必然会对国内企业的智驾发展带来直接冲击,回看现在国内的智驾发展路线,华为、小鹏就是比较有代表的两个方向。

华为ADS走的是多传感器融合路线,最新的ADS 5.0在2026年4月刚发布。这套系统在感知上用了摄像头、激光雷达和毫米波雷达的多重冗余,搭载的是目前量产里规格最高的896线双光路激光雷达,暗光下能识别122米外14厘米高的低矮障碍物。ADS 5.0还升级到了WEWA 2.0,云端引入了多智能体博弈机制和在线强化学习,把路上的其他车辆、行人都当作独立的智能体来做交互推演,训练强度和效率各提升了10倍。车端则引入了安全风险场理论,通过动能场、势能场和行为场实时画出动态风险热力图,碰撞风险降低了50%。另外华为还发了面向自动驾驶的操作系统乾崑OS,在底层基础设施上做标准化布局。总的来说,华为的选择是在稳健里多留几分安全冗余,策略上偏保守,宁可多等一轮红灯也不冒进。

自动驾驶

图片源自:网络

小鹏XNGP和特斯拉更接近,同样坚持纯视觉方案和端到端模型(对于这两者的差异,后面会详细和大家聊一聊)。小鹏在2025年发布了第二代VLA模型,不过和特斯拉的VLA做法不同,小鹏的第二代VLA跳过了语言作为中间转译这一步,直接做视觉信号到动作指令的端到端映射,目标是降低推理延迟和算力开销。从这条路径来看,小鹏追求的是让模型足够轻、足够快,能直接跑在车上。

把三条路放在一起看,差异和各自的取舍就很清楚了。特斯拉的VLA是语言和控制共享同一个特征空间,让语言参与推理但不主导决策。小鹏则干脆取消了语言环节,更贴近工程落地的节奏。华为在感知上保留了多传感器冗余,追求物理层面的安全兜底。需要提醒的是,到现在为止,三家在法律定位上都还属于L2级辅助驾驶,没有谁对谁构成代际碾压。

审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分