在各种检测器的所有模块实现无监督预训练

GiantPandaCV 2023-08-01 1751

电子说

1.4w人已加入

描述

1. 背景介绍

近年来，大规模预训练后微调优化方法在计算机视觉中取得了重大进展。一系列预训练算法被设计出来，以学习特定领域的或任务感知的概念，以提升下游性能。就目标检测而言，当前方法通常利用ImageNet来预训练骨干网络，采用面向分类的监督。然而，与面向检测的微调过程相比，这种预训练方法存在三个差异，如图1所示。

数据:大多数预训练方法是在单个以物体为中心的数据集上进行的，如ImageNet。但是，检测数据集，例如COCO，通常由不同尺度和位置的多个物体组成。数据特征和领域上的差异可能导致预训练偏离下游任务。

模型:由于检测器的多样性和复杂性，当前预训练算法主要关注模型内的部分模块(例如骨干网络)。检测器中的某些关键组件(例如RPN和回归头)仍然是随机初始化的。

任务:现有预训练方法仅将分类任务视为替代任务，未能捕获包括建议生成、目标分配和框回归在内的与物体相关的位置上下文。

这些差异可能导致受限的结果、较差的泛化能力和较慢的收敛速度。

2. 相关知识补充

目标检测。 当前的目标检测算法可以根据不同的预测流程分为基于锚点、基于点和基于查询的方法。基于锚点的方法在每个像素上生成多个具有预定义大小和尺度的锚点。它们通常通过交并比将训练样本划分为正样本和负样本。基于点的方法旨在找到与每个对象相对应的参考点，这可以是每个实例的中心点，预定义或自学习的关键点。与基于锚点和基于点的方法中使用预定义的先验知识不同，基于查询的方法通过一组可学习的查询来表示不同的对象。

自监督预训练。 自监督学习充分利用了大量无标注数据来学习结构化的数据特征，预训练的权重被转移到下游任务中以确保良好的初始化。已经为无监督预训练提出了许多替代任务，例如特征聚类，着色，上下文预测，旋转预测和图像填充。一方面，对比学习通过最大化来自同一实例的不同视图的相似度来捕获良好的表征，在多个下游任务中取得了有竞争力的性能。另一方面，Mask Image Modeling (MIM)最近在自监督学习中引起了越来越多的关注。MIM不需要特定的数据增强，并且对下游任务具有更强大的泛化能力。

目标检测的自监督预训练。 尽管无监督预训练在目标检测中显示出了有竞争力的结果，但直接将图像级预训练知识转移到密集级下游任务存在一系列不一致之处。为减小预训练和微调之间的差距，一些方法通过探索不同视图之间的局部特征相似性来提出密集级对比学习。一些研究人员发现仅预训练骨干网络是不够的，他们尝试预训练其他常见模块，如FPN 。然而，这些方法需要从头开始进行大量的预训练，检测器中的其他关键模块(如RetinaNet 中的回归头)仍然是随机初始化的。另一方面，UP-DETR和DETReg 通过引入区域匹配和特征重构替代任务来预训练整个DETR样式检测器。尽管这些方法可以对整个模型进行充分的预训练，但DETR定向的替代任务无法直接应用于其他检测方法。相比之下，AlignDet实现了各种检测器的高效充分的自监督预训练。

3. 方法详解

最近的工作通过构建无监督预训练替代任务来扩展“预训练和微调”方法，与仅使用监督预训练的方法相比，这些方法取得了更高的性能。然而，与检测过程相比，当前预训练方法在数据、模型和任务上存在不一致之处，如图1所示。尽管可以通过大规模标注数据集的训练来缓解这些不一致，但它需要巨大的计算资源和手工标注成本。这些问题和局限激发我们提出AlignDet，一个通用的自监督框架，用于减小预训练和微调阶段中的差异。

MIM

图2 AlignDet的预训练流程图。监督和自监督预训练都可以用于图像域阶段，以捕捉整体视觉概念。对于框域预训练，首先采用选择性搜索生成无监督建议作为伪标签，然后对每个建议进行扩充，构建两个具有不同尺度和变换的视图。每个预测框用于构建对比学习和协调相关损失，以适应检测任务。

整个预训练流程如图2所示。在以下小节中，我们分别在第3.1节和第3.2节中介绍图像域预训练和框域预训练。我们提供了伪代码，以便更直观地理解AlignDet流程，以及与其他方法在技术细节上的比较见补充材料。

3.1 图像域预训练

图像域预训练优化骨干网络，为后续的框域预训练提取高层语义特征，如图2左侧的步骤1所示。一方面，给定图像x，骨干网络可以在完全监督的设置下与分类器和分类类别进行预训练。另一方面，最近出现的无监督学习算法有助于通过大量无标注数据捕获更普适的表征。以SimSiam 为例，从输入图像中构造两个视图和，并采用不同的数据增强。骨干网络可以通过最大化不同视图的相似性来学习普适的表征，并且利用预测器和停止梯度用来防止模式崩溃。

图像域预训练通常在大规模的图像分类数据集(如ImageNet)上进行，其中每个样本主要包含一个或少数几个主要物体位于图像中心。这里存在一个差距，因为在预训练过程无法访问包含不同尺度和位置的多个物体目标数据集。此外，检测头仍然是随机初始化的，回归工作在此图像域预训练中也未明确学习到。为此，我们设计框域预训练以减小这些差异。

3.2 框域预训练

MIM
MIM

4. 结论

本文中，我们指出预训练和微调阶段在目标检测中存在数据、模型和任务的差异，并提出了AlignDet来解决这些问题。AlignDet学习分类和回归知识，实现高效针对所有模块的预训练。值得注意的是，AlignDet是第一个实现各种检测器完全无监督预训练的框架。我们广泛的实验表明，AlignDet可以在各种设置下显著提升检测性能，包括不同的检测器、骨干网络、数据设置和微调计划。我们相信我们的工作为目标检测中的预训练问题提供了有价值的洞见，并开辟了新的研究方向。

审核编辑：刘清

打开APP阅读更多精彩内容