WACV 2023 I从ScanNeRF到元宇宙：神经辐射场的未来

3D视觉工坊 2023-09-01 716

描述

本文提出了一个用于评估神经辐射场和神经渲染框架的真实基准思想，并设计了一个有效的流程用于快速扫描真实物体。通过不到500美元的硬件预算，在5分钟内能够收集到大约4000张被扫描物体的图像。构建了ScanNeRF数据集，其中包含多个训练、验证和测试集，用于评估不同条件下现代NeRF方法的性能。通过评估三个先进的NeRF变种，突出了它们的优点和缺点。该数据集可以在项目页面上获取，并提供在线基准测试，以促进更好的NeRF的发展。

1 前言

本文提出了元宇宙的概念以及使用神经渲染技术将真实物体转移到虚拟世界中的方法。为了实现这一目标，作者构建了一个简单而有效的物体扫描站-ScanNeRF，并生成了一种高质量的真实数据集，其中包含适用于训练和评估最先进的神经辐射场方法的图像。这个数据集为神经渲染领域的研究提供了一个基准，并探讨了如何在从单个侧面采集的图像中完全渲染一个物体的挑战。此外，作者的工作展示了使用仅500美元的简单硬件就可以构建来自真实物体的数字孪生。

作者的贡献有三个方面:

提出了一个用于收集图像的简单而有效的平台，用于训练神经渲染方法。

发布了一个包含真实物体图像的新型基准测试数据集。

评估了现代神经辐射场的性能，并突出了它们在不同情况下的优缺点。

2 相关工作

本文回顾了神经辐射场（NeRF）的文献，并介绍了NeRF在新视点合成领域的最新进展。NeRF使用多层感知器（MLP）对隐式连续的体素表示进行编码，与离散表示相比具有较好的性能。然而，传统的NeRF存在训练时间长、需要为每个新场景进行独立训练以及渲染速度慢等限制。为了解决这些问题，文献中提出了一些加速NeRF训练和渲染的方法，包括预训练阶段、使用额外的深度信息、利用显式表示以及结合隐式表示等。最近的研究工作已经实现了更快速训练和渲染的NeRF变体，使得实时渲染成为可能。在此基础上，本文选择了DirectVoxGo、Plenoxels和Instant-NGP作为基准模型，建立了ScanNeRF基准测试，旨在推动神经辐射场和相关技术领域的进一步研究。与现有的基准测试相比，ScanNeRF提供了更可扩展的数据收集框架，并明确定义了测试集，避免了潜在的偏见结果。

3 关于神经辐射场的背景

神经辐射场（NeRF）通过将三维场景编码成隐式表示，在视觉领域中广泛应用。通过学习多层感知机（MLP）来建立隐式映射，其中包括中间的MLP（pos）用于推断密度和嵌入，浅层的MLP（rgb）用于预测颜色。为了更准确地表示底层函数的高频部分，使用基于傅里叶特征的位置编码。渲染图像时，根据光学模型和体绘制渲染，通过累计透射量和数值积分来计算像素颜色。训练NeRF模型时，通过最小化光度误差平方来优化模型参数。

4 ScanNeRF基准测试

在本节中，作者描述了ScanNeRF框架的硬件和软件组成部分。作者首先介绍我们的采集平台，然后描述了用于选择最终图像的后处理步骤，以及用于提取物体的掩膜策略。最后，作者强调了生成数据集的整体组织方式。

4.1 扫描站设置

扫描站使用Lego Mindstorm套件构建，配备了OpenCV Oak-D Lite相机。通过旋转底座和机械臂的两个自由度，可以轻松地收集扫描物体周围的图像。相机姿态计算基于ChArUco标记和OpenCV库的功能实现。扫描过程中，相机以30fps的频率录制1440×1080分辨率的图像。整个扫描站通过Lego Mindstorms桌面应用程序的API进行Python编程，并通过蓝牙连接进行控制。扫描站的硬件预算低于500美元。

4.2 数据集过滤

数据集过滤的过程通过计算相机姿态的方位角来检测基座的旋转，并丢弃方位角与前一个角度之差小于1.15°的图像。这样可以有效地去除在臂下降期间收集的图像，从而保留只在臂不移动且基座旋转时获取的图像。

4.3 背景遮罩

为了剔除不一致的背景并获得只包含扫描物体的图像，作者采用背景遮罩的方法。通过使用Instant-NGP神经渲染框架，作者训练并渲染了与原始图像相同姿态的新图像。在渲染过程中，作者使用渲染体积来裁剪不一致的背景，并根据像素的alpha值生成遮罩。这些遮罩被应用于原始图像，移除了背景和扫描站基座，使最终的图像中只保留了物体。

4.4 数据集的组织和划分

在数据集组织和划分阶段，作者将获取的图像序列划分为Train、Val和Test三个宏划分，分别包含不同数量的图像。作者通过Farthest Point Sampling算法在物体上方半球均匀采样图像，并将Train宏划分的图像进一步细分为三个训练子划分，以探究不同图像数量对NeRF算法性能的影响。同时，作者还构建了八个附加的子划分，每个子划分包含在特定区域更密集采集的图像，并从整个半球分布的位置上随机采样一小部分图像。这些子划分的设计旨在研究在训练集具有不均匀视角空间分布时不同NeRF算法的表现，并以此促进未来的研究。

4.5 扫描时间和物体数量

所述流程允许快速扫描大量物体。一个完整的获取周期包括收集约9000张图像，并经过过滤步骤后减少至约4000张。当前的ScanNeRF数据集包括35个真实物体，用于评估现代NeRF框架的性能。未来计划扩大数据集以包含数百个甚至数千个物体，并通过基准网站共享Train/Val拆分。

5 实验

在本节中，作者对作者的创新ScanNeRF数据集进行了实验。具体而言，作者在作者设计的拆分数据上运行了三种现代高效的NeRF框架，以研究它们在不同密度和训练图像数量的情况下的性能表现，以及它们在仅从扫描对象周围的特定区域密集获取图像时的行为。

5.1 评估的框架和设置

在本节中，我们对我们的创新ScanNeRF数据集进行了实验。我们评估了三种现代高效的NeRF框架：DVGO、Plenoxels和Instant-NGP。每种方法都具有不同的训练和渲染速度。我们使用每个框架的官方代码进行实验，并保持默认的超参数设置。在评估中，我们训练了420个实例，并使用峰值信噪比（PSNR）作为评估指标来衡量渲染图像的质量。

5.2 均匀分布采集的实验

在均匀分布采集的实验中，作者训练和评估了三种方法：DVGO、Plenoxels和Instant-NGP。当使用1000张图像进行训练时，所有三种NeRF变体的性能都相当出色，达到了超过30的PSNR。随着训练图像密度逐渐减少到500、250和100，三个框架的性能出现了不同的变化。Instant-NGP几乎不受训练图像减少的影响，DVGO的PSNR有轻微下降，而Plenoxels在仅用100张图像进行训练时出现了最大的渲染质量下降。根据实验结果，Instant-NGP在训练和渲染速度、渲染质量以及对训练图像数量减少的鲁棒性方面表现最佳。这里也推荐「3D视觉工坊」新课程《深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战》。

5.3 对密集局部采集的实验

本实验主要针对密集局部采集进行了实验。实验结果显示，三种NeRF算法在训练和测试相同分布位置的子集时表现良好，但在来自不同密集采集子集的测试中，它们的表现有所不同。其中，Plenoxels在这种设置下表现不稳定，而DVGO和Instant-NGP相对更具鲁棒性。作者推测，这一差异可能是因为前两种方法中的MLP组件能够从均匀分布的样本中学到强烈的偏差，从而帮助它们推广到几乎未见过的半球区域。

6 结论

本文介绍了ScanNeRF作为一个可伸缩的神经辐射场基准和神经渲染框架的评估平台。通过ScanNeRF的特殊划分，作者在不同设置下研究了现代NeRF框架的潜力，并给研究社区提出了一些新的挑战。我们相信ScanNeRF将促进神经辐射场框架的研究。

打开APP阅读更多精彩内容