一种端到端的单阶段多视图融合3D检测方法MVAF-Net

新机器视觉 2021-01-27 2804

描述

该方法将激光雷达投影的BEV和前向视角、与摄像头视角图像作为检测输入，在特征融合中，提出attentive pointwise fusion (APF) 模块。设计attentive pointwise weighting (APW) 模块学习，附加另外两个任务foreground分类和中心回归。

摄像头

如图是架构图：整个MVAF-Net包括三个部分

1）单视图特征提取（SVFE），

2）多视图特征融合（MVFF）

3）融合特征检测（FFD）。

摄像头

在SVFE部分，原始的RGB图像和点云由3-stream CNN主干（CV，BEV和RV）处理，生成多视图特征图，在BEV和RV做点云体素化。在MVFF部分，多视图特征与attentive pointwise fusion模块逐点自适应融合。融合的点特征通过attentive pointwise weighting模块进一步处理，对点特征进行加权并学习结构信息。在FFD部分，对融合和重加权的点特征再次体素化，并作融合主干输入给最终的3D检测。

RV投影表示为柱面坐标系统：

摄像头

attentive pointwise fusion模块架构如下：

摄像头

而attentive pointwise weighting模块架构如下：

摄像头

MVAF-Net的主干网络细节如下图：

摄像头

检测头包括：分类（focal loss）、框回归（SmoothL1 loss）和方向分类（softMax loss）。其总loss函数为

摄像头

最后两个是前景分类项（focal loss）和中心回归项（SmoothL1 loss）。

结果如下：

摄像头

结论

我们提出了一种端到端的单阶段多视图融合3D检测方法MVAF-Net，它由三部分组成：单视图特征提取（SVFE），多视图特征融合（MVFF）和融合特征检测（FFD）。在SVFE部分，三流CNN主干（CV，BEV和RV主干）使用LiDAR点云和RGB图像来生成多视图特征图。在MVFF部分，使用我们提出的注意点向融合（APF）模块实现了多视图特征的自适应融合，该模块可以使用注意力机制自适应地确定从多视图输入中引入了多少信息。此外，我们通过提出的注意点加权（APW）模块进一步改善了网络的性能，该模块可以对点特征进行加权并通过两个额外的任务来学习结构信息：前景分类和中心回归。大量实验验证了所提出的APF和APW模块的有效性。此外，所提出的MVAF-Net产生了竞争性结果，并且在所有单阶段融合方法中均达到了最佳性能。此外，我们的MVAF-Net胜过大多数两阶段融合方法，在KITTI基准上实现了速度和精度之间的最佳平衡。

责任编辑：lq

打开APP阅读更多精彩内容