未来已来，多传感器融合感知是自动驾驶破局的关键

sensemi 2024-10-29 1684

描述

美国加州议会的公共事务委员会做出宣判：允许谷歌旗下Waymo和通用旗下Cruise的Robotaxi在旧金山不受限制地载客，即24×7全天候的、城区范围不受限制、主驾无人的、且可以向乘客收费的Robotaxi运营。这标志着L4级自动驾驶迎来了新的里程碑，朝着商业化落地迈进了一大步。中国的车企也不甘落后：4月7日，广汽埃安与滴滴自动驾驶宣布合资公司——广州安滴科技有限公司获批工商执照。广汽埃安方面表示，这是L4级自动驾驶公司和车企为了打造Robotaxi量产车，在国内成立的首个合资公司。首款车型已完成产品定义，正在进行设计造型的联合评审，计划明年实现量产。未来已来，2024年是全球L3/L4级自动驾驶赛跑的元年。
马斯克评论FSD 12.3版本的左转弯操作就像人类司机一样。如果FSD 12.3版本成功，将基本颠覆目前市场上的智能驾驶技术路线。基于“数据/算法/算力”的无人驾驶技术有着基本的判断：在中短期内无法解决corner case长尾安全问题，十年内不太可能实现量产落地。随着GPT大模型和特斯拉FSD端到端的出现，基于“数据-算力”的方法抛弃了传统的算法和编程CODING，取得了巨大的进展；自动驾驶开始摒弃手动编码规则和机器学习模型的方法，转向全面采用端到端的神经网络AI系统，它能模仿学习人类司机的驾驶，遇到场景直接输入传感器数据，再直接输出转向、制动和加速信号。模仿学习人类驾驶的关键的是具备人类的感知能力，多传感器融合感知正是自动驾驶破局的关键。昱感微的雷视一体多传感器融合方案就好像一双比人眼更敏锐的眼睛，可以为自动驾驶系统提供更丰富更精准的视觉语言——目标与环境的多模态精准感知信息，使自动驾驶系统可以实时精准地感知道路上的各种状况。

昱感微融合感知产品方案创新性地将可见光摄像头、红外摄像头以及4D毫米波雷达的探测数据在前端（数据获取时）交互，将各传感器的探测数据“坐标统一、时序对齐”，图像与雷达数据完成像素级实时“时空对齐同步”并以“多维像素”格式输出。“多维像素”是昱感微的核心技术创新之一，它是指在可见光摄像头像素信息上加上其它传感器对于同源目标感知的信息，将感知系统的感知维度扩展以实现多维度（多模态）感知目标的完整信息。如下图示例，芯片将摄像头图像数据，和雷达探测目标的距离、速度、散射截面R的感知数据，以及红外传感器探测的热辐射图像数据叠加组合到一起，以摄像头的像素为颗粒度组合全部感知数据，每个像素不仅有视觉信息，还包含了4D毫米波雷达和红外传感器的探测数据，形成多维度（多模态）测量参数矩阵数组。基于图像像素为基准+雷达数据的“多维像素”感知数据，与现有主流AI计算平台完全兼容，它可以复用已有的图像数据样本，免除了产品的神经网络训练数据需要完全重新采集的困扰。

昱感微的融合感知技术采用最前沿的多传感器前融合技术，摄像头和雷达等多传感器的探测数据在前端（数据获取时）交互验证，让自动驾驶系统能感知到“看不见”的危险。例如，在反向车道有强远光灯干扰的情况下，当雷达子系统探测到潜在运动目标时，融合感知系统可以引导本车的摄像头针对运动目标做快速局部修正曝光（见下图），以此实时获取运动目标的分辨细节特征，并将局部修正曝光的图像融合雷达数据传输至自动驾驶系统，避免撞击危险发生。

昱感微的融合感知技术方案的优势在于1）是基于“物理感知”数据驱动，能很好地避免纯视觉网络的corner cases问题；2）传感器前融合的方式可以最大限度地保留原始探测数据，并发挥各传感器的优势，使感知系统能够不受天气光线等场景限制，实时完成精准目标感知；3）支持目标的识别与样本采样同步完成，助力车厂建立数据优势，这也是未来车厂的核心竞争力之一。特斯拉成功推出采用端到端方案的FSDV12版本，很大一个助力因素是特斯拉的巨大数据优势，海量的视频数据训练使FSD越来越拟人化。不过，鉴于中国路况复杂并且与欧美道路差异较大，中国车企在数据训练方面有望迎头赶上，而昱感微的融合感知技术的感知数据可助力中国车企实现弯道超车：融合感知系统可同步完成目标识别与样本采样，也就是说车厂可以利用配备融合感知系统的汽车进行大数据采集，分析其广大车主的驾驶数据来建立自身的数据优势。另外，特斯拉的软件能力现已成为差异化卖点，FSD套件的盈利模式采用一次性买断制和按月订阅制，且一次性购买价格经过多轮涨价，目前已升至15000美元。智能软件差异化竞争和汽车应用付费模式很可能是未来汽车行业的趋势。昱感微融合感知系统内含一个专用的数据获取模块，将目标的识别与有效样本的获取结合，可提供有效样本的获取函数，配合车厂开发。并且多维像素格输出的感知数据在有效性和丰富度上都高于纯视觉（视频数据），可以快速提升AI神经网络的训练收敛率以及目标识别率，为车厂增加智能驾驶的核心竞争力。此外，多维像素还可以直接高效支持“占用网络” (Occupancy Network)算法。占用网格是指将感知空间划分为一个个立体网格（体素），而多维像素包含了目标的3D空间位置信息、目标的速度信息和材质信息，可以直接高效实时支持占用网格中的体素算法。Tesla目前在主推“BEV +Transformer+占用网络”，国内华为GOD2.0和小米汽车也采用相同的架构，预计未来许多智能驾驶团队都会引入“占用网络”来提升系统能力。多维像素的应用前景非常广阔。昱感微的融合感知技术+BEV +Transformer+占用网格有望成为L3/L4级自动驾驶最优的落地方案。

打开APP阅读更多精彩内容