电子说
点云是三维深度学习中一种重要的数据类型,研究人员们一直致力于高效准确的处理点云,并基于点云实现分类、检测和分割等一系列高级计算机视觉任务。自从PointNet以来,研究人员们提出了众多基于PointNet的模型和模型变体,极大的拓展了计算机视觉对于三维点云数据的处理能力。
但是由于点云的表示和处理方法对于计算资源的消耗使得网络模型无法加深,同时全局与局部的信息缺乏多层级地交互也限制了模型的表达能力。
为了探索这些问题的解决办法、来自伦敦大学学院的研究人员们提出了一系列新的点云处理模块,从效率、信息共享和点云卷积操作等方面进行了研究,得到了更宽、更深、更快效率更高的点云处理网络,让更深的点云深度学习模型成为可能。
与图像领域的深度学习架构相比,针对点云的处理手段还比较简单。无论是模块的多样性和网络的宽度与深度上,点云网络的架构都还有很大的发展空间。例如PointNet和PointNet++这样的模型架构随让证明了神经网络的有效性,但是对于计算资源的巨大消耗成为了制约这类架构发展的限制。
网络内部的每一个节点都需要携带所有邻域的特征使得存储资源消耗过大,过深的网络无法高效的实现。而在图像领域的发展经验表明,更深更宽的网络与模型的精度有着直接的联系。研究人员在这一工作中通过引入三方面的新结构来改善点云处理网络的精度、降低计算资源的消耗,同时提升了推理阶段的运行速度。
多分辨率
研究人员引入了多分辨率用于在多个不同的尺度上处理多尺度网络结构,大幅度降低了内存占用。在PointNet++中利用不断增加的聚类半径来对原始点云处理多尺度信息。而在这篇文章中,研究人员直接在网络早期的处理阶段使用了多个不同的聚类半径来处理,使得模型可以混合多个尺度的信息,理解多尺度上下文内容并减少计算资源的消耗。
研究人员使用了以下采样的方法来对原始点云进行处理,而后进行分组实现了不同尺度的处理。下图显示了多分辨率的处理方式不仅增加了某个点的领域感受野,同时不增加内存占用,更好的捕获全局的内容信息。
图中红色的点表示绿色点增加的感受野
点卷积模块
为了更加高效的获取邻域信息,研究人员将图像邻域信息的卷积概念延伸到了点云领域,提出了点卷积概念,在训练过程中更有效地混合邻域信息。相较于PointNet++减小了67%的内存占用,实现了41%的速度提升。其中的关键在于针对分组操作在前向传播的过程中将中间结果及时释放,利用单层神经网络大大加速了处理过程。
上面的算法显示了前向和反向传播的过程,在内存占用和速度上同时进行了优化。
卷积计算单元对于内存占用的大幅下降使得更深的网络成为可能。与先前的工作相比,这种结构的网络在深度增加时对计算资源需求增加地更为缓慢。
新的模型不仅在降低了初始化地内存需求,当层数增加时内存的增加也较为缓慢。深度翻倍时模型地高分辨和低分辨部分地仅仅增加了16.8%和2.3%。
优化信息流
为了综合各个尺度下的信息实现更有效的点云感知,研究人员对模型进行了更深入的分析和改进。首先为了保证在模型加深时网络的稳定性,研究人员在模型中添加了残差结构,在提高训练效果的同时避免了梯度消失的问题。
为了更好地利用多分辨率的信息,研究人员利用了交叉分辨率链接来为不同分辨率下的分支提供了信息沟通的渠道,使得高、中、低各个分辨率的信息得以有效在训练过程中交换,每个分辨率在专注于学习自身尺度信息的同时与其他分辨率进行信息交换,更有效地提升了训练和速度和推理地精度。
最终利用邻域卷积、多分辨率交叉互联和多分辨率点云处理等基础模块构建出了可堆叠的深度卷积点云网络。
研究人员在ShapeNet-Part,ScanNet,PartNet等数据集上对算法进行了验证,并利用平均IOU和部分IOU等指标评测了算法对于点云目标分割的表现。研究发现新提出的卷积点云处理结构对于更为复杂的数据表现更为优秀。
首先多分辨率结构为模型提供了不同尺度上的信息理解,对于不同分辨率的信息混合可以增加对于复杂数据的感知,更为关键的是在模型同时还在效率上实现了提升。在反向传播阶段时间减少了62%。
其次,交叉连接部分可以看作是不同分辨率间的信息互补,在很小的内存开销和速度延迟下,能在最复杂的PartNet数据集上实现更好的分割精度。
最后,内存高效的卷积利用单层感知机实现点云特征提取移除了中间层的激活,并利用多个相同单元进行堆叠,不仅提升了2.6~3%的IOU提升,更减小了67%的内存占用和41~68%的时间消耗。
最重要的,由于新的网络模块对于内存的消耗减少,使得更深的点云处理网络成为可能,通过残差结构和交叉互联保证了深度网络的稳定性和信息的流动过程。
下图展示了模型与PointNet++比较的一些结果,可以看到深度卷积点云网络在分割任务中的的误差更小:
基于本文提出模块重新构建的网络模型在IOU和计算资源利用率上均有大幅度提升:
全部0条评论
快来发表一下你的评论吧 !