人工智能
作者丨黄浴
来源丨 计算机视觉深度学习和自动驾驶
arXiv论文“PeRFception: Perception using Radiance Fields“,2022年8月24日,PosTech、Nvidia和加州理工的工作。隐式3D表示,即神经辐射场(NERF)的最新进展,使得可微分方式进行精确和真实感的3D重建成为可能。这种新的表示法可以以一种紧凑的格式有效地传达数百幅高分辨率图像的信息,并允许照片真实感合成新视图。这项工作,采用NeRF的变型,称为Plenoxels(“Plenoxels: Radiance fields without neural networks“. arXiv:2112.05131, 2021),创建第一个用于感知任务的大规模隐式表示数据集,称为PeRFception数据集,由两部分组成,包括以目标为中心和以场景为中心的扫描数据,用于分类和分割。PeRFception显示了原始数据集的显著内存压缩率(96.4%),同时以统一的形式包含2D和3D信息。作者构建了直接将这种隐式格式作为输入的分类和分割模型,并提出一种新的数据增强技术,避免图像背景的过拟合。代码和数据:https://postech-cvlab.github.io/PeRFception/.将低维坐标映射到场景的局部属性(如占用率、正负距离场或辐射场),可以表示3D场景。这种隐式表示提供了显式表示(如体素、网格和点云)没有的优点:更平滑的几何体、更少的存储空间、具有高保真度的新视图合成等等。因此,隐式表示已用于三维重建、新视图合成、姿态估计、图像生成等。特别是,神经辐射场(NeRF)表明,隐式网络,把静态场景表示为输出视角相关辐射场的隐式5D函数,可以捕捉精确的几何关系,并渲染真实感图像。它们使用可微分的体渲染、场景几何和视图相关的辐射,可以通过图像监督编码到隐式网络中。与传统的显式3D表示不同,这些组件允许网络以可微分的方式捕获高保真光度特征,例如反射和折射。事实上,NeRF存在缺点,阻碍了在3D场景和感知的标准数据格式广泛采用隐式表示。首先,训练隐式网络很慢,可能需要几天的时间。推理(体渲染)也可能需要几分钟,限制了NERF实时应用。第二,场景的几何和视觉属性隐式地编码为神经网络的权重。这些事实阻止了现有的感知流水线去直接处理信息。第三,隐式特征或权重是场景特定的,不能在场景之间迁移。然而,对于感知,通道或特征必须具有一致的结构,例如图像的RGB通道。例如,如果从图像到图像通道的顺序表现不同,则图像分类流水线将无法正常工作。最近的研究采用显式稀疏体素网格几何和特征基函数解决了这些限制。首先,为了解决速度慢的问题,使用显式稀疏体素几何,跳过空白空间来减少沿射线的采样数。其次,直接优化分配给显式几何结构的特征,而不是使用网络权重的隐式表示,减少了从网络中提取特征的时间。最后,场景之间的一致特征,对于感知或创建不同目标的NeRF格式的场景至关重要,Plenoxels满足数据表示的所有标准,支持快速学习和渲染,同时保持场景感知和合成的一致特征表示。Plenoxels (plenoptic voxels),将场景表示为具有球谐(spherical harmonics)函数的稀疏三维网格。该表示通过梯度方法和正则化从校准图像中优化,无需任何神经组件。Plenoxels的优化速度比神经辐射场(NeRF)快两个数量级,而视觉质量没有损失。如图所示:给定一组目标或场景的图像,重建(a)稀疏体素(“Plenoxel”)网格,每个体素具有密度和球谐系数。为了渲染光线,(b)通过相邻体素系数的三线性插值计算每个采样点的颜色和模糊度。如同NeRF,用(c)可微分体绘制来整合这些样本的颜色和模糊度。然后,可以用相对于训练图像的标准MSE重建损失以及TV(total variation)正则化来(d)优化体素系数。这里PeRFception数据集以一种紧凑的格式输送视觉(球谐系数)和几何(密度、稀疏体素网格)特征,可以直接应用于各种感知任务,包括2D分类、3D分类和3D分割,如图所示。编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !