基于3D视觉系统的自动驾驶导航

YB7m_Apollo_Dev 2018-08-17 6693

电子说

1.2w人已加入

描述

自动驾驶需要许多技术，但强大的3D感知是车辆与周围环境互动的先决条件。目前，最标准的方法是基于Lidar来检测和识别物体，发现可行驶道路和相关任务。相比于Lidar，基于视觉信息（如图像或视频）的3D感知对降低成本也至关重要。

2018计算机视觉欧洲大会（European Conference on Computer Vision，简称ECCV）主办的这一挑战要求参赛者基于3D视觉系统来完成自动驾驶相关的一些相关任务，ApolloScape作为Apollo开源平台的一部分，将为本次大会的计算机视觉社区提供一个大规模和高质量的真实场景数据集。本次大会将于9月8日-14日在德国慕尼黑举办，该会议与CVPR、ICCV共称为计算机视觉领域三大顶级学术会议。

ApolloScape是百度在2017年创立的的Apollo自动驾驶开源平台的一部分。为了刻画高细粒度的静态3D世界，我们使用移动激光雷达扫描仪器从Reigl收集点云。这种方法产生的三维点云要比Velodyne产生点云更精确更稠密。在采集车车顶上安装有标定好的高分辨率相机以每一米一帧的速率同步记录采集车周围的场景。而且，整个系统配有高精度GPS和IMU，相机的实时位姿都可以被同步记录。我们的采集图像来自于中国的不同城市，比如北京、上海和深圳等。

ApolloScape拥有来自现实世界的高质量的静态场景的3D标注与动态物体的2D标注。目前，已经产出了14.7万张标注，覆盖了来自三个城市的三个站点周围10KM的地域。而且，每个区域都在不同的天气和光照条件下进行了重复扫描。最终，ApolloSacpe将会发展成为一个不断更新进化的数据集，来自新的城市的数据标注也会陆续的加入其中。ApolloSacpe计划产出至少20万张图片用于举行不同的挑战赛，其中将会覆盖来自三个城市的5个站点的20KM的道路。在下文中，我们将会针对不同的挑战任务进行详细的介绍。

关于挑战赛

对于所有的挑战，除了测试精准度外（精准度会用来给算法排名次），我们也要求参与者具体说明他们所使用的算法的速度和执行细节。我们会鼓励实时运行的算法，例如30 fps，也会将他们突出标注在排行榜上，因为速度是实际应用的关键属性。

挑战赛内容：基于视觉的细粒度车道标记分割

具有车道标记的高精地图通常用作自动驾驶车辆的后端导航。目前，大多数高精地图的生产主要由手工标记构建。在此挑战中，我们要求参与者设计实现基于RGB图像的道路基本元素的自动检测算法。这些分割结果直接用于高精地图的生产或更新环节。这项任务的挑战之处在于不清晰的车道标注和拥挤复杂的交通环境。

整个数据集的Ground truth是在三维点云上标注完成的。然后通过投影得到2D图像的Ground truth。此外，移动障碍物的遮挡问题我们也通过2D图像上的手动标注来完成了。参与者还可以利用相应的视频、相机内参和位置来帮助分割任务。我们在图一中举例说明了3D车道标记，在图二中列出了2D的Ground truth。详细的评估标准请参考我们的ECCV挑战赛网站（http://apolloscape.auto/ECCV/index.html）。

2.实时自定位

基于视觉的自定位，即通过图像或视频估计相机的6自由度位姿。与使用LIDAR相比，具有成本低的优势，但同时也具有更高的挑战。在我们的数据集上我们测试了最新的自定位算法如VidLoc[2],然而我们发现离工业应用仍然有很大的差距（定位精度必须小于15cm）。此外，自我定位算法的实时性对于自动驾驶也至关重要。

在这次挑战中，我们提供了大量的带有精度相机位姿的训练视频。同时我们的测试视频也来自于同一个场景，但是在不同的时间、不同的天气以及交通状况下采集的。我们的指标与DeLS-3D[3]和PoseNet[4]相同。在图3中，我们突出标记了地面实况摄像头姿势。我们已经将所有的Ground truth与ApolloScape发布的数据结合起来。详细的评估标准请参考我们的ECCV挑战赛网站（http://apolloscape.auto/ECCV/index.html）。

3.3D汽车实例了解

对于自动驾驶车辆来说，检测其他车辆、行人、乘客等是非常重要的。系统必须了解每个图像帧中每个物体的3D关系，尤其是自动驾驶车辆周围或附近的物体。在该挑战中，参赛者需要检测，重建和估计图像中所有车辆的3D形状。图4中显示了两帧标注图像的样例。

我们将基于平均精度（AP）来评估车辆的3D边框果，3D形状和姿势。这与2D实例检测和分割类似。详细的评估标准请参考我们的ECCV挑战赛网站（http://apolloscape.auto/ECCV/index.html）。

关于ApolloScape

目前ApolloScape已开放了14.7万帧的像素级语义标注图像，向全球的自动驾驶技术研究人员提供更为实用的数据资源。通过高精度的采集、标注，创造了全球最大的三维自动驾驶数据集Scene Parsing（场景解析）。

此外，ApolloScape计划为数据集拓展更多类型、更多属性的数据：通过添加红外图像，帮助自动驾驶算法更容易进行夜间检测；提取更稠密的轨迹信息，用于对驾驶行为进行建模；以及通过众包模式采集立体视觉的驾驶特殊事件图像。开发者也可以参照我们在CVPR上发表的有关自动驾驶数据集的论文，以便于更好的使用ApolloScape数据集。

打开APP阅读更多精彩内容