从3D场景中实例形状重建涉及恢复多个对象的完整几何结构。这涉及到在语义实例级别对数据进行处理。使用数据驱动学习来应对场景的复杂性和室内遮挡。方法需要大规模、高质量的数据集来训练,其中包括与真实世界扫描对齐和配对的形状标注。已有数据集可能是合成的或不对齐的,这会限制数据驱动方法在真实数据上的表现。文章提出了一个名为LASA的数据集,包含了高质量的CAD标注和与ArkitScenes的真实场景扫描对齐的数据,这些由专业艺术家手动创建。在此基础上,文章提出了一种名为DisCo的新型基于扩散的跨模态形状重建方法,利用混合特征聚合设计,融合多模态输入,并恢复高保真度的对象几何结构。除此之外,还提出了一种名为OccGOD的基于占据信息引导的3D对象检测方法,并展示了形状标注提供的场景占据信息线索如何进一步改善3D对象检测。经过大量实验验证,文章的方法在实例级别场景重建和3D对象检测任务中取得了最先进的性能。
读者理解:
LASA 使用大型对齐形状注释数据集的做法非常有意义。这使得 LASA 能够学习到更通用的形状特征,从而提高实例重建的准确性和可靠性。
LASA 使用实例分割、形状对齐和生成对抗网络等多种技术的做法非常合理。这使得 LASA 能够生成逼真的、高质量的实例 3D 模型。
该研究提出了以下主要方法和贡献:
LASA数据集构建:LASA是一个大规模数据集,包含10,412个手工制作的高质量CAD模型,覆盖了920个真实场景。这些模型与ArkitScenes的3D激光扫描对齐,为数据驱动的重建算法提供了准确、一致的训练数据。
DisCo方法:提出了一种基于扩散的跨模态形状重建方法。该方法利用三平面扩散模型,结合部分点云和多视图图像,实现了高保真度的3D形状重建。混合特征聚合层有效融合了不同输入模态的局部特征,提高了特征对齐效果。
OccGOD方法:占据引导的3D物体检测方法利用LASA的完整标注生成场景级占据地面真值,指导3D物体检测。这种方法在处理遮挡和稀疏物体方面相较于基线方法取得了显著的性能提升。
1 引言
本文探讨了手持RGB-D传感器广泛应用的情况,指出由于传感器精度的限制、室内环境的复杂性和物体之间的遮挡等问题,室内场景扫描往往存在噪音和不完整性。这限制了在虚拟/增强现实和3D行业等领域中对完整高质量重建的需求。文章着重介绍了3D视觉和图形学领域对室内实例级场景重建的迫切需求,目标是基于传感器捕捉的3D扫描或图像来重建观察到的物体形状。深度学习方法已取得许多进展,但这些方法需要大量配对的场景扫描和CAD模型以进行训练。然而,现有的数据集往往是合成的或者不对齐的,限制了数据驱动方法在真实数据上的性能。文章介绍了LASA数据集的创建,这是一个大规模对齐的形状标注数据集,由专业艺术家手工制作,与920个真实世界场景的3D扫描对齐。LASA数据集的推出旨在解决当前研究中的瓶颈,为数据驱动的室内场景理解和重建提供了途径。这里也推荐工坊推出的新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。
2 方法
LASA数据集包含10,412个独特的CAD模型,覆盖了920个场景,采用专业艺术家手工创建,并与3D扫描对齐。这些标注为数据驱动的重建算法提供了精确一致的训练数据。
LASA数据集是基于ArkitScenes的3D激光扫描构建,通过降采样和转换矩阵对齐实现数据预处理,再通过CAD模型手动标注和验证确保了标注质量。
LASA数据集与其他现有数据集相比,具有相似数量的CAD模型,并且在CAD标注质量和形状多样性方面表现出优势,同时能够提供完整的RGB-D序列,拓展了其在下游应用中的可能性。
DisCo方法利用三平面扩散模型,结合了部分点云和多视图图像,实现了高保真度的3D形状重建。同时,混合特征聚合层有助于更好地融合不同输入模态的局部特征。
OccGOD利用形状完整性先验从LASA的标注中生成场景级占据地面真值,以指导3D物体检测,在处理遮挡和稀疏物体方面取得了显著的性能提升。
3 总结
通过引入LASA数据集,本研究提出了DisCo和OccGOD两种方法,分别用于跨模态形状重建和占据引导的3D物体检测。这两种方法在真实场景中取得了最先进的性能表现,证明了LASA数据集的支持对于改善室内场景理解和重建领域的标注质量和数量至关重要。
全部0条评论
快来发表一下你的评论吧 !