与2D视觉和NLP相比,基于基础的视觉计算在3D社区中发展滞后。提出以下问题:是什么使得3D表示学习比2D视觉或NLP更具挑战性?
深度学习的成功在很大程度上依赖于具有全面标签的大规模数据,在获取3D数据方面比2D图像或自然语言更昂贵且耗时。这促使我们有可能利用用于不同模态知识转移的以3D数据为基础的预训练模型作为教师。
本文以统一的知识蒸馏方式重新考虑了掩码建模,并且展示了基于2D图像或自然语言预训练的基础
Transformer
模型如何通过训练作为跨模态教师的自编码器(ACT
)来帮助无监督学习的3D表示学习。本文首次证明了预训练的基础
Transformer
可以帮助3D表示学习,而无需访问任何2D、语言数据或3D下游标注。
这篇论文的动机是解决3D数据表示学习中存在的挑战,即3D数据与2D图像或语言具有不同的结构,使得在细粒度知识的关联方面存在困难。作者希望通过自监督学习的方式,将来自图像领域的丰富知识应用于3D数据的表示学习中,从而提高3D任务的性能。作者提出一种自监督学习框架,用于跨模态的知识传递和特征蒸馏,以改善3D数据的表示学习和下游任务性能。
核心创新点是框架中的ACT(Autoencoding Cross-Transformers
),它将预训练的基础Transformer
模型转化为跨模态的3D教师模型,并通过自编码和掩码建模将教师模型的特征蒸馏到3D Transformer
学生模型中。
作者通过以下方式设计和实现ACT框架:
Transformer
转化为3D教师模型。这个自编码器通过自监督训练从3D数据中学习特征表示,并生成语义丰富的潜在特征。Transformer
学生模型的掩码建模目标。学生模型通过优化掩码建模任务来学习表示,以捕捉3D数据中的重要特征。Transformer
作为教师模型,因为它们在2D图像领域表现出色,并且作者认为它们可以学习迁移的3D特征。ACT框架包括以下主要部分:
预训练的2D图像或语言Transformer:作为基础Transformer
模型,具有丰富的特征表示能力。作者选择了先进的2D Transformer
模型作为基础模型,例如Vision Transformers
(ViTs) 或者语言模型(如BERT)。
训练:使用大规模的2D图像或语言数据集进行预训练,通过自监督学习任务(如自编码器或掩码建模)来学习模型的特征表示能力。
3D自动编码器:通过自监督学习,将2D图像或语言Transformer调整为3D自动编码器,用于学习3D几何特征。作者将预训练的2D图像或语言Transformer
模型转换为3D自动编码器。通过将2D模型的参数复制到3D模型中,并添加适当的层或模块来处理3D数据。
使用3D数据集进行自监督学习,例如预测点云数据的遮挡部分、点云重建或其他3D任务。通过自监督学习任务,3D自动编码器可以学习到3D数据的几何特征。
跨模态教师模型:将预训练的3D自动编码器作为跨模态教师模型,通过掩码建模的方式将潜在特征传递给3D Transformer
学生模型。
特征传递:通过掩码建模的方式,将3D自动编码器的潜在特征传递给3D Transformer
学生模型。教师模型生成的潜在特征被用作学生模型的蒸馏目标,以引导学生模型学习更好的3D表示。
3D Transformer学生模型:接收来自教师模型的潜在特征,并用于学习3D数据的表示。
特征蒸馏:学生模型通过特征蒸馏的方式,利用教师模型的潜在特征作为监督信号,从而学习到更准确和具有丰富语义的3D表示。
这种设计和实现带来了多个好处:
Transformer
作为教师模型,ACT能够利用图像领域已有的丰富特征表示,提供更有语义的特征编码。总的来说,ACT框架的核心创新在于将自监督学习和特征蒸馏方法应用于3D数据中,实现了知识传递和表示学习的改进,为跨模态学习和深度学习模型的发展提供了新的思路和方法。
深度学习的成功在很大程度上依赖于具有全面标签的大规模数据,在获取3D数据方面比2D图像或自然语言更昂贵且耗时。这促使我们有可能利用用于不同模态知识转移的以3D数据为基础的预训练模型作为教师。
本文以统一的知识蒸馏方式重新考虑了掩码建模,并且展示了基于2D图像或自然语言预训练的基础Transformer
模型如何通过训练作为跨模态教师的自编码器(ACT
)来帮助无监督学习的3D表示学习。
Transformer
模型通过使用离散变分自编码的自监督来作为跨模态的3D教师进行转移,在此过程中,Transformer
模型被冻结并进行提示调整,以实现更好的知识传承。Transformer
学生中。
预训练的ACT
3D学习者在各种下游基准测试中实现了最先进的泛化能力,例如在ScanObjectNN
上的 %整体准确率。
图1
ACT
框架的概述。
- (a)
ACT
利用在大规模数据上预训练的Transformer
模型,例如使用2D图像预训练的ViT或使用语言预训练的BERT。- (b)
ACT
的第一阶段(第4.1节),预训练的Transformer
模型通过带提示的自监督3D自编码进行微调。- (c)
ACT
的第二阶段(第4.2节),3D自编码器编码器被用作跨模态教师,将潜在特征编码为掩码点建模目标,用于3DTransformer
学生的表示学习。
近年来,数据驱动的深度学习在人工智能系统中得到广泛应用。计算硬件的进步极大地推动了机器智能的发展,并促进了一种新兴的范式,即基于广泛数据训练的模型的知识转移。
Transformer
在视觉领域取得成功后,人们已经做出了许多努力,将这种趋势从NLP领域扩展到基于2D视觉理解的基础模型中。与2D视觉和NLP相比,基于基础的视觉计算在3D社区中发展滞后。提出以下问题:是什么使得3D表示学习比2D视觉或NLP更具挑战性?
从以下三个角度提供一些分析性答案:
i. 架构不统一。先驱性架构如PointNet只能对3D坐标进行编码,而无法应用于在NLP和2D视觉中取得成功的掩码去噪自编码(DAE)。然而,Transformer
架构现在已经弥补了这种架构上的差距,实现了跨所有模态格式的统一表示,并为扩展3D中的DAE带来了巨大潜力。
ii. 数据稀缺。与图像和自由形式语言相比,收集和标注3D或4D数据更加困难,通常需要更昂贵且密集的工作。此外,考虑到数据规模,3D数据严重匮乏。这促使了跨模态知识转移的使用。最近的研究要么与其他模态一起进行联合训练以实现更有效的对比,要么直接对在图像数据上预训练的2D Transformers
进行微调。
iii. 模式差异。表1显示了语言、2D图像和3D点云的数据模式比较。可以观察到:
在上述分析的推动下,作者提出了将Autoencoders作为跨模态教师进行训练。
ACT
利用基于2D图像或自然语言预训练的基础Transformers
作为跨模态教师,具有丰富的知识和强大的表示能力。通过这种方式,3D中的数据稀缺问题得到缓解。Transformers
作为自编码器,Transformers
可以将3D点云转化为具有丰富语义的表示形式。为了保留和继承预训练的基础知识,使用了提示微调。
因此,ACT
使预训练的Transformers
成为自发的跨模态教师,为3D点云提供了语义丰富的掩码建模目标。
Transformers
被微调为3D自编码器,在这种跨模态Transformer
转移过程中不需要任何图像、语言数据或3D下游标注。Transformers
仅用作3D Transformer
学生的教师,该方法在下游特征转移过程中不会引入额外的计算或存储成本。
此外,进行了各种任务的大量实验证明了ACT
预训练3D Transformers
具有出色的泛化性能。
ScanObjectNN
数据集上实现了平均准确率提高%。
据知,本文首次证明了预训练的基础Transformer
可以帮助3D表示学习,而无需访问任何2D、语言数据或3D下游标注。ACT
是一个自监督的框架,可以推广到其他模态和任务,期望这能够推动更多类似ACT
风格的表示学习的探索。
表1: 数据模式比较
自监督的3D几何处理表示学习目前在学术界引起了极大的兴趣。
传统方法是基于重建的几何理解预任务构建的,例如点云部分重排序,方向估计,局部和全局重建,流一致性,变形和遮挡。
与此同时,Xie等人在PointContrast
中提出了学习增强点云之间的区分性视角一致性的方法。在这个方向上,还提出了许多相关工作。
最近,许多工作提出了应用点云Transformer
的自编码器(DAE)预训练的方法,并取得了显着的成功。
BERT-style
预训练的思想,结合全局对比目标,开创了这个方向。
作者遵循这种DAE-style
表示学习范式,但与之前的方法不同,工作旨在使用由预训练基础Transformer
编码的潜在特征作为掩码建模目标。
跨模态的3D表示学习旨在利用除了3D点云之外的更多模态内在的学习信号,例如,2D图像被认为具有丰富的上下文和纹理知识,而自由形式的语言则具有密集的语义信息。主流方法基于全局特征匹配的对比学习进行开发。
通过利用几何先验信息进行密集关联,另一项工作探索了细粒度的局部特征匹配。
最近,通过直接使用经过监督微调的预训练2D图像编码器取得了很大的进展。
一些工作也探索了预训练基础模型是否可以帮助3D学习。然而,本文作者的方法:
(1)不使用预训练的2D或语言模型作为推断的主干模型;
(2)在无下游3D标注的自监督预训练过程中探索使用来自其他模态的预训练基础模型;
(3)不需要成对的点-图像或点-语言数据。
除了2D图像之外,还有一些工作提出利用自然语言进行对比的3D表示学习,零样本学习,以及场景理解。
Transformer
的3D点云表示与规则网格上的图像不同,点云被认为是不规则和结构较弱的。许多工作致力于为点云数据设计深度学习架构,利用点集的排列和平移不变性进行特征学习。
不仅仅依赖于这样的专门主干,还利用Transformer
主干,这样更容易与其他模态(如图像和语言)统一,并促进跨模态的知识传递。
使用专门的点网络计算局部几何块嵌入,并将其馈送给Transformer
以输出更有效的几何表示。
假设有一个点云 ,其中N个坐标编码在 笛卡尔空间中,
其中:
Transformer
块。
使用标准的Transformer
块作为编码器,进一步转换局部块嵌入 ,其中C是嵌入大小。
按照Yu等人的方法,使用一个具有可学习参数ρ的两层MLP 作为位置嵌入,应用于每个块以实现稳定的训练。
式中,MSA表示多头自注意的交替层,LN表示分层范数,MLP为两层,其中GELU为非线性。 是一种可学习的全局表示嵌入,以 作为其可学习的位置嵌入。
掩码建模可以看作是经典自编码器(DAE)的扩展,其中采用了掩码损失,最近已经在语言模型和视觉领域进行了探索。
通过这种方式,学生在教师的指导下学习数据中的深层知识。
为了损坏输入数据,为每个位置生成一组掩码 ,指示标记是否被掩码。
使用可学习的损坏嵌入 来替换被掩码的位置,将损坏的表示 输入到编码器或解码器。这里,表示Hadamard乘积, 是指示函数。
在某个度量空间 中定义了距离函数 ,作为解码器,目标是最小化以下距离:
解码器随着建模目标的不同而变化,例如,它是BERT的非线性投影,带有softmax ,其中度量函数变成交叉熵。可以看作是掩模建模的统一公式。
因此,考虑如何在掩码3D建模中建立一个知识渊博的老师是很自然的。作者的想法是利用2D或语言基础模型中的跨模式教师。
ACT
: 自编码器作为跨模态教师
目标是通过预训练的2D图像或语言Transformer
来促进3D表示学习,该模型具备从大规模数据中吸收的深层知识。
然而,3D点云与2D图像或语言具有不同的结构,这使得细粒度知识的关联变得困难。
为了解决这个问题,采用了一个两阶段的训练过程。ACT
框架的概述如图1所示。
Transformer
作为3D自编码器,通过自监督的提示调整来学习理解3D几何。Transformer
学生中。
Transformer
是最近在各个领域中主导的架构,可以以统一的方式对任何模态的序列数据进行建模。
Transformer
块的D层中,例如2D Transformer
:。在这里,使用 来表示 2DTransformer
的第 层。
使用 个可学习的提示嵌入 ,应用于Transformer
的每一层。具体来说,Transformer
的第 层 将隐含表示 从第 层转换为 ,如下所示:
使用这种参数高效的快速调整策略,能够调整预训练的基础Transformer
,同时保留尽可能多的预训练知识。
另一个DGCNN网络 用于从基础Transformer
嵌入的隐藏表示中提取局部几何特征。然后,利用FoldingNet 对输入点云进行重构。
将以上3D自编码器作为离散变分自编码器(dVAE)进行训练,以最大化对数似然 。这里 表示原始和重构的点云。
整体优化目标是最大化证据下界(ELBO),当时成立:
其中:
通过训练3D自编码器,预训练Transformer
的强表示被转化为3D特征空间,使自编码器自动成为一个跨模态教师。
将在4.1节中介绍的预训练点云编码器作为教师 ,将3D Transformer
作为学生。
通过掩码建模作为跨模态知识蒸馏,最小化编码后的教师特征与学生特征之间的负余弦相似度 :
在分类任务中使用迁移学习的三种变体:
(a) FULL
: 通过更新所有骨干和分类头来微调预训练模型。
(b) MLP- linear
: 分类头是单层线性MLP,只在微调时更新该分类头参数。
(c) MLP-3
: 分类头是一个三层非线性MLP(与FULL中使用的相同),只在微调时更新这个头的参数。
首先展示了在具有挑战性的现实数据集ScanObjectNN
上对3D形状识别的评估。结果如表2所示,其中可以观察到:
(i) 与FULL调优协议下从头开始的Transformer
基线相比,ACT
在三个不同的ScanObjectNN
基准测试上平均获得了+10.4%的显着改进。此外,通过简单的点云旋转,ACT
实现了+11.9%的平均改进;
(ii) 与明确以三维几何理解为目的设计的方法相比,ACT`始终取得更好的结果。
(iii) 与其他自监督学习(SSL)方法相比,在ScanObjectNN
上,ACT
在所有方法中实现了最好的泛化。此外,在ScanObjectNN
上使用纯3D Transformer
架构的方法中,ACT
成功地达到了最先进(SOTA)的性能,例如,在最具挑战性的PB_T50_RS基准测试中,ACT
比Point-MAE
的准确率高出+3.0%。
表2:
ScanObjectNN
上的分类结果。our1:没有数据增强的训练结果。Ours2:简单点云旋转训练的结果。DA:在微调训练期间使用数据增强。报告总体精度,即OA(%)。
大规模3D场景的语义分割具有挑战性,需要对上下文语义和局部几何关系的理解。在表4中,报告了S3DIS
数据集的结果。可以看到:
(i) ACT
显著提高了从零开始的基线,mAcc和mIoU分别提高了+2.5%和+1.2%。
(ii) ACT
比SSL对应的Point-MAE
分别高出+1.2%和+0.4%的mAcc和mIoU,在大场景数据集上显示出优越的传输能力。
(iii) 仅使用几何输入xyz, ACT
可以实现与使用xyz+rgb
数据进行细致设计的架构相当或更好的性能,包括3d特定的Transformer
架构。
表4:
S3DIS
区域5上的语义分割结果。报告了所有类别的平均准确性和平均IoU,即mAcc(%)和mIoU(%)。使用Xyz:点云坐标。xyz+rgb:同时使用坐标和rgb颜色。
展示了在合成数据集ModelNet40
上对三维形状分类的评估。为了证明在有限的训练样例下ACT
的数据效率特性,首先遵循Sharma & Kaul(2020)来评估 few-shot 学习。
从表5中,可以看到:
(i) 与从头开始的FULL转移基线相比,ACT
在四种设置下分别带来了+9.0%,+4.7%,+8.7%,+6.2%的显着改进。
(ii) 与其他SSL方法相比,ACT
始终实现最佳性能。
然后,在表3中展示了完整数据集上的结果,在表3中我们观察到,与FULL协议下的从头基线相比,ACT
实现了+2.5%的准确率提高,并且结果与所有协议中的其他自监督学习方法相当或更好。
表3:
ModelNet40
数据集上的分类结果。报告总体精度,即OA(%)。[ST]:标准Transformer
架构。
表5:在
ModelNet40
上的Few-shot分类,报告了总体准确率(%)。
表6展示了使用不同解码器深度的ACT
在ScanObjectNN
上的平均微调准确率。可以看出,性能对解码器深度不敏感,我们发现具有2个块的解码器取得了最高的结果。
需要注意的是,当解码器深度为0时,我们采用了类似BERT的掩码建模架构,其中没有解码器,编码器可以看到所有的标记,包括被掩码的标记。
我们发现这导致了较差的结果,与在2D上观察到的数据的低语义性需要一个非平凡解码器的观察一致。
表6: 预训练解码器深度的消融研究。
图2: 掩码比 消融研究和跨模
Transformer
教师选择。
图2(a)展示了使用不同掩码策略在ScanObjectNN
上的平均微调准确率。
Transformer
的ACT
在ScanObjectNN
上的平均微调准确率,包括Vision Transformers
、全MLP架构、语言模型和视觉语言模型。观察到较大的教师模型始终能够获得更好的性能。
此外,令人惊讶的是,ACT
使用语言模型BERTB(即BERTbase)作为跨模态教师,可以达到平均准确率85.12±0.54%(最高可达85.88%),这表明ACT
可以推广到任何模态。
表7: dVAE标记器不同训练策略的消融研究。
- 报告了F-Score,使用l1范数和l2范数的倒角距离,即CD- l1和CD- l2
表7展示了使用预训练的2D图像Transformer
进行不同训练配置的3D自编码器的重构结果。观察到:
(i)带有预训练图像Transformer
的3D dVAE模型在重构结果上明显优于Point-BERT
。这表明预训练的2D图像Transformer
具有强大的对3D的表示能力。
(ii) 提示调整或冻结模型可以获得比完全调整更好的结果,我们认为这是因为某些预训练的2D知识被遗忘了,而提示调整有效地解决了这个问题。重构可视化结果可以在附录D中找到。
为了了解预训练的2D图像Transformer
在3D dVAE模型中的必要性,我们用不同的dVAE教师和掩模建模配置进行了实验。
从表8中,可以看到:
(i) 当使用没有预训练的2D图像变压器的Point-BERT
dVAE模型时,通过提取潜在特征而不是离散令牌,可以实现+0.62%的改进。分析认为,离散令牌识别学习起来更具挑战性3D数据。
(ii) 当使用Point-BERT
离散标记作为掩码建模目标时,通过应用带有预训练2D图像Transformer
的dVAE模型,得到了最差的性能。这表明,无论标记器有多强大,离散标记都不适用于语义稀疏的点云数据。
(iii) 当使用ACT时,性能显著提高。这表明,带有预训练2D图像
Transformer`的3D dVAE能够编码具有丰富语义的特征,更适合于掩码点建模。
表10: 二维图像转换器在dVAE模型中不同位置嵌入的研究。
(a)无:不使用位置嵌入。(b) 2D/z:仅使用2D xy平面坐标的位置嵌入。
(c) 3D:所有3D xyz坐标的位置嵌入。
报告了F-Score,使用l1范数和l2范数的倒角距离,即CD- l1和CD-l2,以及
ScanObjectNN
上的OA。
ACT
是否可以用作辅助知识蒸馏方法?
由于ACT
使用编码特征作为掩码建模目标,它具有将我们的方法作为辅助特征蒸馏的潜力。
表9显示了在Point-MAE
模型中,使用ACT
作为中间特征的辅助深度监督训练的结果,其中ACT
编码的潜在特征被蒸馏到Point-MAE
的编码器特征中。
可以观察到,ACT
能够显著提高Point-MAE
在ScanObjectNN
上的准确率,提高了0.87%,表明ACT
作为一种知识蒸馏方法具有可扩展性和有效性。
Transformer
如何理解3D点云?
为了更好地理解2D图像Transformer
如何通过自编码器训练理解3D输入,研究了ViT-B在我们的ACT
dVAE模型中使用的位置嵌入的效果。从表10可以看出:
(i) 在没有任何位置嵌入的情况下,预训练的ViT仍然可以学习可迁移的3D特征(准确率为84.21±0.45%)。我们认为这是因为位置几何信息已经包含在输入的3D坐标中,预训练的2D Transformer
可以通过几何特征纯粹处理3D数据,而不需要显式的位置提示。
(ii) 当仅使用2D xy平面坐标的位置嵌入时,准确率显著提高了0.89%。我们认为2D位置嵌入是为了适应冻结的图像Transformer
而学习的,使图像Transformer
能够将3D输入编码为具有高语义的预训练2D特征空间。
(iii) 当使用所有3D坐标进行位置嵌入时,2D图像Transformer
成功利用了附加坐标信息来进行更好的特征编码。
本文提出了一种自监督学习框架ACT
,通过预训练的基础Transformer
进行掩码建模,将特征蒸馏传递给3D Transformer
学生模型。ACT
首先通过自监督的3D自编码将预训练的基础Transformer
转化为跨模态的3D教师模型。
然后,来自调整后的3D自编码器的语义丰富的潜在特征被用作3D Transformer
学生模型的掩码建模目标,展现了在各种下游3D任务上卓越的泛化性能。作为一种通用的自监督学习框架,相信ACT
可以轻松扩展到除3D数据之外的其他模态。
这种自监督方式展示了跨模态知识转移的巨大潜力,这可能在数据驱动的深度学习时代极大地促进了基础建模的发展。
图3比较了基于2D图像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建结果。
图4显示了t-SNE在ShapeNet
上进行预训练并在ModelNet40
和ScanObjectNN
PB_T50_RS数据集上进行微调后的模型特征可视化。
可以观察到:
(i) 在ShapeNet
上进行预训练后,由于相对较小的域间隙,模型已经可以在ModelNet
上产生判别特征。
(ii) 在对下游数据集进行微调后,在ModelNet40
和具有挑战性的ScanObjectNN
数据集上都获得了判别特征。
(iii) Shapenet
预训练ACT在ScanObjectNN
上提取的特征分布看起来不那么判别性。我们认为有两个原因导致它: (i)合成的ShapeNet
和真实的ScanObjectNN
数据集之间的大域差距,以及(ii) ACT使用的不是对比损失,例如区分(例如,Point-BERT
使用的MoCo损失)。有趣的是,这在ScanObjectNN
上产生了更好的泛化性能(ACT
的OA为88.21%,而Point-BERT
为83.07%)。
全部0条评论
快来发表一下你的评论吧 !