一种在线激光雷达语义分割框架MemorySeg

3D视觉工坊 2023-11-21 607

描述

作者： | 来源：3DCV

笔者总结

本文提出了一种在线激光雷达语义分割框架MemorySeg，它利用三维潜在记忆来改进当前帧的预测。传统的方法通常只使用单次扫描的环境信息来完成语义分割任务，而忽略了观测的时间连续性所蕴含的上下文信息。该框架旨在解决在激光雷达表示中引入记忆的若干挑战，包括遮挡、资源限制和动态场景。作者引入了一种点级邻域变化正则化器，用于抑制局部三维邻域内预测的剧烈变化，并在SemanticKITTI、nuScenes和PandaSet等公开数据集上验证了MemorySeg的有效性。所提出的框架构建了周围环境的稀疏三维潜在表示，提供了丰富的三维上下文，从而区分不同的类别，尤其是在当前被遮挡的区域。MemorySeg优于仅依赖激光雷达的当前最先进的语义分割方法。该方法能够保留先前观测到的区域，即使在当前被遮挡，因为遮挡物和被遮挡物在激光雷达观测中占据不同的三维空间，而不是在距离视图中重叠。与距离视图（RV）相比，三维记忆为不同的类别分配了相同的表示能力，无论它们与自动驾驶车辆（SDV）的距离如何，保持了点之间的距离，无论视点或距离如何，并且学习了不同类别的尺寸先验知识。

我们的方法学习一个三维稀疏潜在记忆表示，以更好地将先前帧联系起来。我们应用 PCA 将潜在维数减少到3，并绘制为 RGB图。

原文摘要

激光雷达点云的语义分割是近年来的研究热点，大多数现有方法只关注于利用单次扫描的环境信息来完成这个任务。然而，观测序列中包含的丰富上下文信息可以有助于提高对场景中难以观测（例如被遮挡）或观测稀疏（例如远距离）区域的理解，并且可以在每次获取新扫描时减少重复计算。在本文中，我们研究了如何利用过去帧的信息来在线地改进当前帧的预测。为此，我们提出了一种新颖的框架，用于处理激光雷达点云时间序列的语义分割，该框架利用记忆网络来存储、更新和检索过去的信息。我们的框架还包括一种新的正则化器，该正则化器抑制点云局部邻域内语义预测的变化。先前的工作尝试在范围视图表示中将记忆集成到语义分割中，但是这些方法无法处理邻近行为者的移动造成的遮挡，以及场景的范围视图表示发生的巨大变化。我们提出的框架通过构建周围环境的稀疏三维潜在表示来克服这些限制。我们在SemanticKITTI、nuScenes和PandaSet上评估了我们的方法。实验结果表明，与仅依赖激光雷达的当前最先进方法相比，我们的框架表现更好。

方法详解

在这一节中，我们介绍MEMORYSEG，这是一个在线语义分割框架，用于流式激光雷达点云，它利用三维潜在记忆来记住过去并更好地处理遮挡和稀疏观测。在本节的后续部分，我们首先描述我们的模型构建，然后介绍网络体系结构，最后解释学习过程。

3.1 模型构建

令表示激光雷达扫描序列，其中是序列长度，是时间索引。每个激光雷达扫描包含第帧的个无序点。包含笛卡尔坐标，是激光强度。让是从时间到的车辆坐标系之间的姿态变换。

为了进行有依据的语义预测，在本文中，我们在三维中维护一个潜在(或隐藏)记忆。这个记忆是稀疏的，因为大多数三维空间是未被占用的。为了表示这种稀疏性，我们在时间的参数化记忆为一个稀疏体素集，其坐标为，对应嵌入为。是时间处潜在记忆中的体素条目数，是嵌入维度。保留体素坐标很重要，以便在参考坐标变化时执行对齐。我们利用基于体素的稀疏表示，因为与密集张量以及点级稀疏表示相比，它在计算上提供显著的优势，而性能不会受到损害。

我们的推理过程是每当有新的激光雷达扫描可用时，就重复执行以下三个步骤：（i）编码器接收当前时刻的最新激光雷达点云，并提取点级和体素级的观测嵌入，（ii）利用新观测的体素级嵌入更新潜在记忆，（iii）通过结合编码器的点级嵌入和更新后的记忆的体素级嵌入，解码出语义预测。我们请读者参考图2以更好地理解我们的方法。

记忆更新阶段由于SDV移动导致参考框架变化，记忆和当前激光雷达扫描的不同稀疏级别，以及其他行为者的运动而面临挑战。为了解决这些挑战，引入了特征对齐模块（FAM）将以前的记忆状态与当前观察嵌入对齐。随后，采用自适应填充模块（APM）在当前数据中填充丢失的观察结果，并将新观察结果添加到记忆中。然后，采用记忆完善模块（MRM）使用填充后的观察结果更新潜在记忆。接下来，我们将详细解释每个组件。

图2. 模型概述。在编码器处理时间t的激光雷达点云之后，结果特征图用于更新潜在记忆（参见图3了解有关记忆更新的更多详细信息）。然后，解码器将精炼的记忆与编码器的点嵌入组合以获得语义预测。

编码器:我们的编码器由点分支和体素分支组成。点分支计算点级嵌入，保留细节;体素分支通过三维稀疏卷积块执行上下文推理。点分支为每个点接收一个7维特征向量，具有xyz坐标、强度以及最近体素中心的相对偏移。它包含两个共享的MLP，输出点嵌入，如图2所示。我们对属于同一体素的点(体素大小为)的第一个共享MLP的点嵌入进行平均，以获得体素特征。然后，这些特征通过具有三维稀疏卷积的四个残差块处理，每个块都将特征图下采样2倍。对具有三维稀疏卷积的两个额外残差块进行上采样，以将稀疏特征图恢复原始大小。与恢复原始分辨率的完整U型网络不同，为了计算效率，我们只上采样到原始大小的，并使用更粗糙的特征来更新潜在记忆，然后再解码更细微的细节以输出我们的语义预测。

特征对齐:随着SDV的移动，参考框架会发生变化。我们提出特征对齐模块(FAM)将上一帧的潜在记忆从 ego帧转换到，并与当前的观察嵌入对齐。具体来说，我们获取记忆体素坐标，并使用姿态信息将其从ego帧投影到。然后，我们使用投影坐标并以体素大小重新采样。如果多个条目位于同一记忆体素内，我们取平均作为体素特征。得到的扭曲坐标和记忆在ego帧中的嵌入分别表示为和。

图3. 潜在记忆更新过程概述。潜在记忆嵌入使用特征对齐模块(FAM)转换到t的ego帧。接下来，自适应填充模块(APM)用于学习记忆和观察嵌入的填充。记忆完善模块(MRM)使用填充后的观察嵌入更新潜在记忆。然后将更新的记忆传递到解码器以生成语义预测。

自适应填充:为了处理潜在记忆和体素级观测嵌入的不同稀疏级别，我们提出自适应填充模块(APM)。参阅图3。首先，我们以相同的体素大小重新采样编码器特征。同一体素内的条目进行平均。结果坐标和嵌入表示为和。在本节中，为简洁起见，我们省略了。设和为当前扫描中记忆中不存在的新观测的坐标和嵌入。要获得新条目的记忆嵌入的初始猜测，我们在其周围邻域内使用加权聚合方法。这涉及考虑相对于记忆中现有相邻体素的坐标偏移，这为聚合过程提供了关于其重要性的洞察，类似于Continuous Conv。除此之外，我们还将特征相似性和特征距离作为聚合过程的额外线索。编码特征相似性特别有用，因为它可以为分配邻域中的权重提供更多信息。在动态场景中有移动行为者时，网络应该学习从相似嵌入的邻域开始，而不是最接近的条目。更精确地说，我们在记忆中添加坐标为的条目，每个体素的嵌入初始化如下:

其中和是体素索引，是体素在中的近邻，是一个共享的MLP，后接softmax层在邻域尺寸上进行，以确保。

其次，我们标识记忆中在当前观察中未被观察到的区域，并将其坐标和嵌入表示为和。我们以类似的方式添加条目和来完成当前观察。

记忆完善: 我们设计ConvGRU的稀疏版本来使用当前填充的观察嵌入更新上一潜在记忆，如下所示:

其中，，是降采样特征的稀疏三维卷积块，目的是扩大感受野，并有上采样层将嵌入恢复到原始大小。和是学习的信号，分别用于重置或更新记忆。我们引用读者参考补充材料中有关稀疏卷积块的详细体系结构。

解码器:我们的解码器由一个MLP、两个带稀疏三维卷积的残差块和一个线性语义头组成。具体来说，我们首先获取在坐标处的对应记忆嵌入，并将其与来自编码器的点嵌入相加。然后将得到的组合嵌入体素化，体素大小为，并通过两个上采样特征图回原始分辨率的残差块进一步处理。与此同时，一个MLP获取体素化之前的点嵌入，以保留细粒度细节。最后，语义头获取体素和点嵌入的组合，为每个点获得语义预测。

记忆初始化 在序列开始时()，使用第一个观测结果初始化记忆，其中，。

3.2 学习

我们通过最小化常规分割损失函数和新的点级正则化器的线性组合来学习我们的分割模型，以更好地监督网络训练。

这里，表示按类频率的倒数加权的交叉熵损失，以解决数据集中的类别不平衡问题。Lovasz Softmax Loss()用作交集与联合(IoU)指标(这是语义分割的常用评估指标)的可微分替代，以训练网络。另外，对应于我们提出的点级正则化器。，和是超参数。

点级平滑度:我们的正则器旨在限制语义预测在每个点的三维邻域内的显著变化，除非这些变化发生在类别边界上。形式化地，

这里，表示点周围的真实语义变化，而对应于点周围的预测语义变化。我们使用表示预测的语义分布，使用表示真实的语义独热标签。变量表示的第个元素。表示中点的邻域，||表示邻域中的点数。

实验结果

论文针对nuScenes数据集、PandaSet数据集和SemanticKITTI数据集等进行了与最先进方法的比较实验。结果表明，MemorySeg在这些数据集上取得了更先进的性能。

表1. 在SemanticKITTI测试集与最新方法的比较

表2. 在nuScenes激光雷达语义分割测试集与最新方法的比较

表3. 在PandaSet测试集与最新方法的比较

图4. 在不同距离范围的验证集上与单帧基线(SFB)的比较

图5. 随时间的MEMORYSEG预测示意图，在顶部左上角包括来自单帧基线(SFB)的预测以及具有颜色编码的真值

表4. 提出的网络组件消融实验结果

表5. 提出的正则化器消融实验结果

结论

在本文中，我们提出了一种新的在线LiDAR分割模型MEMORYSEG，它利用一个稀疏的三维潜在记忆递归地累积从过去观察中学习到的语义嵌入。我们还提出了一个新的点级变化正则化器来监督三维点云上的语义分割学习。我们的结果表明，与仅依靠单个扫描的方法相比，我们的方法可以显著改善远区域的语义预测，克服这些区域更加稀疏，更容易部分遮挡的困难。展望未来，我们的未来工作将关注将实例分割和跟踪集成到端到端的增强记忆全景分割框架中。

审核编辑：汤梓红

打开APP阅读更多精彩内容