虽然,从小型客车到多轴半挂卡车,自动驾驶汽车 (AV) 有各种尺寸和大小,但部署在这些车辆上的感知算法都要经过训练,以处理诸如避障或行人检测等类似场景。
用于开发和验证这些算法的数据集通常从某一款车型中收集,例如配备摄像头、雷达、激光雷达和超声波传感器的某款小轿车。
使用某类传感器配置的车队数据训练的感知算法可以在同类传感器配置的车型上稳定运行。但当相同的算法被部署到使用了不同传感器配置的车辆上时,感知性能会降低,因为现在是从新的视角来感知的。
分析感知精度的损失,需要测量深度神经网络 (DNN) 对新传感器位置的敏感度。通过灵敏度分析,可以从多个角度重新训练感知算法,从而有针对性地提高鲁棒性。
但是,灵敏度分析和重新训练感知都需要收集和标注各种传感器配置的数据集。这个过程耗时且成本高昂。
本文展示了 NVIDIA DRIVE Sim 中的合成数据集以及 NVIDIA 在新视角合成 (NVS) 方面的最新研究如何填补数据缺口,并帮助在部署新传感器配置时保持感知准确性。
测量 DNN 灵敏度
在为不同传感器视角创建合成数据集之前,首先需要在 NVIDIA DRIVE Sim 中构建数字孪生的测试车队车辆,并配备经过与真实世界的传感器配置标定的摄像头传感器模型。
合成数据是通过在预定义场景中按照某个轨迹驾驶汽车,收集并保存仿真摄像头数据。每次驾驶的场景各不相同,例如传感器装备高度、俯冲和安装位置等方面,以模拟其他尺寸类型的车辆。
通过使用 NVIDIA Omniverse Replicator 在 Omniverse 中生成真值 (Ground Truth, GT) 标注(如 3D 边界框)和评估感知算法所需的目标类别。整个工作流都是可重复的,并且能够运行设计好的实验,以便快速测量感知算法的灵敏度。
在生成的数据集做推理,将预测的输出与 GT 标签进行比较,用以测量在不同摄像头高度配置下的模型精度,如图 1 和 图 2 所示。数据集的场景相同,但传感器角度不同。在图 1 中,蓝色框代表 GT 标签,而绿色框代表网络的预测。在图 2 中,蓝色框代表 GT 标签,而红色框代表网络的预测。
图 1. 目标检测模型
在四个不同的合成数据集上运行的示例,
重点关注车辆物体类别
图 2. 目标检测模型
在四个不同的合成数据集上运行的示例,
重点关注行人物体类
鉴于网络是基于一类车辆采集数据进行训练的,因此(与采集车)相似的摄像头配置,检测会更准确,随着摄像头位置的显著变化而检测性能降低。
要解决感知模型在新车型上部署的差距,需要视角不同于原始采集车的新车型的训练数据集。虽然现有的车队数据可通过数据增强来使用,但这种方法并不能完全满足数据集收集新视角的需求。
新视角合成
NVS 是一种计算机视觉方法,用于从一组现有图像中生成未见过的新场景视图。这项功能可以从不同视角或角度创建场景图像,而不是由车载相机捕获。
图 3. 新视角合成的完整管线
NVIDIA 研究团队最近提出了一种 NVS 方法,该方法能够将动态驾驶数据从一个传感器位置转换到新视角,用于模拟不同的高度、俯仰角 (pitch) 和航向角 (yaw) 等传感器的新视角。有关详细信息,请参阅 Towards Viewpoint Robustness in Bird’s Eye View Segmentation。
(https://nvlabs.github.io/viewpoint-robustness/assets/tzofi2023view.pdf)
该方法基于 Worldsheet,一种结合深度估计和 3D 网格合成来生成静态场景新视角的技术。首先,根据预测的深度值将Lattice网格变形以匹配场景,从而创建 3D 场景网格。然后,使用纹理采样器将原始图像中的 RGB 像素强度投射到 3D 网格的纹理图上。相比之前的工作,进一步采用基于激光雷达的深度监督和自动掩码来提高深度估计的准确性并处理遮挡问题。
NVS 模型现在可用于生成数据,就像是从不同类型的车辆中获取的一样。从而能帮助解锁现有车队数据,以便在未来的自动驾驶汽车开发中使用。
图 4. NVS 变换后的图像示例,这些图像生成的视角会改变原始俯仰角、深度和高度
验证 NVS 并提升感知性能
在将 NVS 生成的数据纳入训练数据集之前,首先要验证其是否准确的反映了真实世界,并且是否对感知训练有效。
为此,验证 NVS 算法需要结合车队数据和 NVS 转换后的数据来训练感知算法。如果没有多视角的真实数据来测试模型的性能,可以在 DRIVE Sim 中生成合成数据和 GT 标注,与前面讨论的灵敏度测试类似。
图 5. 在 DRIVE Sim 中生成的一组用于感知验证的具有不同俯仰角、深度和高度的摄像头图像
在这些合成数据集上做推理表明,使用 NVS 生成的数据进行训练可以提高感知性能。具体而言:
NVS 生成的数据质量非常合适用于不同俯仰角场景,不适用于较大高度的场景。
用于训练的 NVS 转换数据能够恢复感知性能,而这曾只有通过为每个新传感器配置收集新数据才能实现。
这种方法开启了一种 AV 开发新途径,即只需一次数据采集,然后再将其重新用于多种车型,从而显著降低部署成本和时间。
结语
开发能够在不同类型车辆上鲁棒的运行的感知堆栈是一项巨大的数据挑战。而合成数据生成和用于新视角合成 (NVS) 的 AI 技术能够实现感知灵敏度的系统测量。这大大提高了现有数据集的价值,并缩短了为其他车辆部署感知堆栈的时间。
我们邀请了广大研究人员参与这项工作。因此,我们在 Towards Viewpoint Robustness in Bird’s Eye View Segmentation 中公布了来自 DRIVE Sim 的合成数据:
https://nvlabs.github.io/viewpoint-robustness/assets/tzofi2023view.pdf
欢迎探索这些数据并了解详情:
https://nvlabs.github.io/viewpoint-robustness/
点击“阅读原文”,获取更多资讯。
了解更多
NVIDIA 与其汽车行业合作伙伴共同开发的领先设计与技术:
https://developer.nvidia.cn/drive
适用于自动驾驶汽车的 NVIDIA 解决方案:
https://www.nvidia.cn/self-driving-cars/
GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。扫描下方海报二维码,立即注册 GTC 大会。
原文标题:使用合成数据处理自动驾驶新视角感知
文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
全部0条评论
快来发表一下你的评论吧 !