基于DetNet的单阶段单视图三维点云重建网络

冬至子 2023-12-06 1080

电子说

1.3w人已加入

描述

1. 文章摘要与主要贡献

从一张图片中推断出具有合理形状和外观的物体是一个具有挑战性的问题。现有的研究往往更多地关注点云生成网络的结构，而忽略了二维图像的特征提取，减少了网络中特征传播过程中的损失。本文提出了一种单级单视图三维点云重建网络3D SSRecNet。所提出的3D SSRecNet是一个简单的单级网络，由2D图像特征提取网络和点云预测网络组成。单级网络结构可以减少提取的2D图像特征的丢失。二维图像特征提取网络以DetNet为骨干。DetNet可以从2D图像中提取更多细节。

为了生成形状和外观更好的点云，在点云预测网络中，使用ELU作为激活函数，并使用CD和EMD的联合函数作为3D SSRecNet的损失函数。为了验证3D SSRecNet的有效性，该文在ShapeNet和Pix3D数据集上进行了一系列实验。CD和EMD测量的实验结果表明，3D SSRecNet优于最先进的重建方法。

该文工作的主要贡献如下：

该文提出了一种用于从单个图像进行3D重建的单阶段神经网络，即3D SSRecNet。3D SSRecNet将图像作为输入，并直接输出预测的点云，而无需进一步处理。
3D SSRecNet包括特征提取和三维点云生成。特征提取网络更善于提取2D输入的详细特征。点云生成网络具有简单的结构，并在其多层感知器中使用适当的激活函数，这减少了转发传播过程中的特征损失，以获得精细的输出。
在ShapeNet和pix3D数据集上的实验表明，3D SSRecNet在单视图重建任务上优于现有技术的重建方法。同时，该文还通过实验证明了点云生成网络激活函数的有效性。

**2. **研究方法

2.1 3D-SSRecNet的结构

3D SSRecNet的体系结构如图1所示。3D SSRecNet包括两个主要部分：二维图像特征提取网络和点云预测网络。这两个部分构成了一个简单的单阶段点云重建网络。单阶段网络结构仅在3D SSRecNet的网络内传输2D图片的特征。与需要跨网络传输特征的两阶段重建网络相比，这种网络结构减少了特征的损失。

MLP

图 1 3D-SSRecNet框架—architecture of 3D-SSRecNet.

给定一个2D图像，首先，该文通过DetNet获得一个潜在的表示V。然后，该文通过全连接（FC）层将V映射到低维特征V’。然后直接应用多层感知器（MLP）对点集进行预测。在训练过程中，计算倒角距离和推土机的距离损失函数，并监督可训练参数的更新。

2.2 二维图像特征提取

许多图像特征网络应用下采样，带来了更高的感受野，但不可避免地造成了图像细节的损失。然而，对于重建，图像细节对于几何形状的恢复至关重要。这种网络更适合图像分类任务，但不适合需要更详细特征的重建任务。

DetNet不仅保留了更多的细节，而且保留了很大的感受野。尽管DetNet是为物体检测而设计的，但其新颖的扩张瓶颈结构提供了高分辨率的特征图和大的感受野。该文使用DetNet作为图像特征提取的主干。DetNet在阶段4之前遵循与ResNet-50相同的结构，因此DetNet还具有易于训练且不会陷入梯度消失的优点。表1显示了DetNet最后两个阶段的参数，即DetNet和ResNet-50之间的差异。

在第4阶段之后，DetNet将特征图的大小保持在16×16，这使得能够保留更多细节。DetNet的第五和第六阶段由具有扩张卷积的瓶颈组成，一些瓶颈在其快捷连接上具有1×1卷积。扩大的卷积增加了感受野。然而，考虑到计算量和存储量，阶段5和阶段6设置相同的通道数256。在基线结束时，将应用完全连接的图层。

表 1 DetNet最后两个阶段的参数—the parameters of last two stages DetNet.

MLP

如图1所示，在对输入图像进行特征提取后，该文获得了输入图像的1000维潜在特征V。之后，全连接（FC）层将向量V的维度从1000压缩到100，并获得向量V’。

2.3 点云预测

该文使用三层MLP来直接预测点集。三个MLP层的输出尺寸分别为512、1024和N×3。特征提取网络的输出：向量V'被馈送到点云预测网络的MLP中。在前两层上，引入ELU作为激活函数。

ELU激活函数及其导数的曲线分别如图2a、b所示。对于常见的激活函数，如ReLU，对应于负轴的值为0。然而，标准化的点云坐标间隔为[-1，1]，这表明点云坐标将具有负值。如图2a所示，ELU激活函数的负轴对应的值为非零。因此，使用ELU作为激活函数，重建网络中的负值信息在前向传播过程中不会丢失。如图3b所示，ELU的导数在负轴上也是非零的。在网络的反向传播过程中，负梯度不会丢失，它可以帮助更新网络权重。

MLP

(a)激活函数ELU曲线 (b) ELU导数曲线

Curve of activation function ELU Curve of derivative of ELU

图 2 ELU激活函数及其导数—ELU activation function and its derivative

MLP

图 3 具有相同CD损失值的不同重建—different reconstructions with the same CD loss value

在实验部分，该文证明了使用ELU作为激活函数的重建效果优于使用其他激活函数。该文在最后一个激活层之后直接输出预测的点集。它由tanh函数实现，其输出属于[-1，1]，与所需的点集数据相同。

2.4 损失函数

定义点云重建的损失函数。该文必须考虑两个重要的性质。（1）点云是一个无序的点集，因此无论该文如何改变点的顺序，该文都将获得相同的数据。（2）无论任何旋转变换，真实物体的几何特征均不得发生显著变化。然而，例如，当该文进行旋转变换时，点坐标似乎不同。

CD定义如下：

MLP

EMD定义如下：

MLP

综合CD和EMD的优缺点，该文的网络的损失函数定义为：

MLP

3. 实验过程 ****

该文分别在ShapeNet和Pix3D数据集上评估了所提出的3D SSRecNet。ShapeNet是一个纹理CAD模型的大集合，由13个类和43809个点云模型组成，用于训练和测试。该文使用80–20%的训练/测试分割来执行该文的实验。该文在Pix3D数据库上进行了同样的实验。Pix3D数据库由三个类和7595个点云模型组成。该数据集是真实场景的CAD模型。在Pix3D上的实验可以更好地评估点云重建算法的实用性。

该文使用梯度优化算法Adam来优化所提出的3DSSRecNet。在训练中，该文将学习率设置为0.0005，将历元设置为50。训练环境如下：Ubuntu 18.04.6，CUDA 10.1，GPU型号为NVIDIA Tesla T4×4。该文使用在1024个采样点上计算的CD和EMD值来评估重建点云的质量。

表 2 ShapeNet数据集上不同激活函数的重构结果—reconstruction results of different activation functions on ShapeNet dataset.

MLP

表 3 CD评估的ShapeNet重建结果—reconstruction results on ShapeNet evaluated by CD

MLP

表 4 EMD评估的ShapeNet重建结果—reconstruction results on ShapeNet evaluated by EMD

MLP

**4. **文章结论

本文提出了一种高效的三维点云重建方法3DSSRecNet。给定图像，它学习潜在的表示，在降维后，该文应用MLP直接预测对应点云。该文在ShapeNet和Pix3D数据集上进行了几个实验。该文证明了在发电网络中使用激活函数ELU的重建效果优于使用其他激活函数。也就是说，使用ELU生成的点云的CD和EMD值低于使用其他激活函数生成的点云中的CD和EMD值。

**5. **阅读心得

这篇论文提出了一种名为3D-SSRecNet的单阶段和单视图3D点云重建网络，该网络由2D图像特征提取网络和点云预测网络组成。单阶段网络结构可以减少提取的2D图像特征的损失。2D图像特征提取网络采用DetNet作为骨干网络，可以从2D图像中提取更多细节。为了生成形状和外观更好的点云，在点云预测网络中，使用ELU作为激活函数，并使用Chamfer距离（CD）和Earth mover’s distance（EMD）的联合函数作为3D-SSRecNet的损失函数。在ShapeNet和Pix3D数据集上进行的实验结果表明，通过CD和EMD测量，3D-SSRecNet优于现有的重建方法。

打开APP阅读更多精彩内容