15倍加速！SuperCluster：最强3D点云全景分割！

3D视觉工坊 2024-01-22 1534

描述

1. 写在前面

今天笔者为大家推荐一篇最新的开源工作SuperCluster，实现了大型三维点云的全景分割，可以在一次推理中处理包含数百万个点和数千个对象的场景。在仅有209k个参数的情况下，SuperCluster比SOTA方法小30多倍，训练速度快15倍。

下面一起来阅读一下这项工作

2. 摘要

通过将该任务重新定义为可扩展的图聚类问题，我们介绍了一种高效的方法用于大型三维点云的全景分割。该方法可以仅使用局部辅助任务进行训练，从而省去了训练过程中资源密集型的实例匹配步骤。此外，我们的公式可以很容易地适应超点范式，从而进一步提高其效率。这使得我们的模型可以在一次推理中处理包含数百万个点和数千个对象的场景。我们的方法，称为SuperCluster，在两个室内扫描数据集上取得了最新的全景分割性能：S3DIS Area 5为50.1 PQ ( + 7.8 )，ScanNetV2为58.7 PQ ( + 25.2 )。我们还为两个大规模移动建图基准：KITTI - 360和DALES设置了第一个最先进的基准。在仅有209k个参数的情况下，我们的模型比最好的竞争方法小30多倍，训练速度快15倍。

3. 效果展示

S3DIS Area 5的大规模全景分割结果，共有9.2 M个点( 78M预采样)和1863个真实"物"对象。SuperCluster可以在3.3秒内在单块V100 - 32GB GPU上一次推理处理如此大的扫描，并达到50.1的PQ值。

gpu

四个数据集的全景预测结果。

gpu

4. 具体原理是什么？

SuperCluster对一个包含两个物体（椅子和沙发）的简化场景的操作顺序：子图( a )展示了第一阶段，其中点云被分割成具有简单几何形状的连通超点。在子图( b )中，预测每个超点的语义类分布。在子图( c )中，预测每一对相邻超点的对象一致性，表明它们属于同一个对象的可能性。子图( d )展示了一个图聚类问题的输出，该问题在对象之间的转换处切割边的同时，合并了具有兼容类分布和对象一致性的超点。由此产生的超点簇定义了全景3D分割的实例。

gpu

超点对象Agreement：对每一对相邻的超点( s , t)计算一个对象一致性分数。这个值是由s和t以及它们的多数对象obj ( t )和obj ( s )之间的平均重叠率定义。

gpu

5. 和其他SOTA方法的对比

S3DIS Area 5上SOTA语义分割方法的语义( SS )和全景分割结果，提供了两个全景度量，将所有类别视为"事物" ( PS -- no "stuff")，将墙壁、天花板和地板视为"物品" ( PS )。

gpu

6. 总结

这篇文章引入了SuperCluster，一种用于大规模点云的三维全景分割的新方法。作者将这个任务设计为可扩展的图聚类问题，绕过了当前全景分割方法中的一些计算密集型步骤。SuperCluster在S3DIS，ScanNet，KITTI - 360和DALES在内的多个基准测试集上达到了最先进的性能，同时显著地更小，可扩展，更容易训练。

审核编辑：黄飞

打开APP阅读更多精彩内容