要解决的问题:
距离深度学习的突破之作AlexNet已过去10年之久,期间各种网络架构层出不穷,那么作为研究者和实践者,该如何选择网络架构?
解决方案:
通过对各种预训练模型(包括视觉-语言模型、自监督学习模型等)在多种计算机视觉任务(如分类、对象检测等)上的性能进行大规模比较,来帮助研究者和实践者更好地选择合适的模型。这就像是在各种预训练模型中进行一场“角逐”,看看哪个模型的性能最好。
结论:
1、尽管Vision Transformer(ViTs)和自监督学习(SSL)越来越受欢迎,但在大多数任务中,文章发现在大型训练集上以监督方式预训练的卷积神经网络仍然表现最好。
2、在相同的架构和类似大小的预训练数据集上进行比较,文章发现SSL BackBone具有很高的竞争力,这表明未来的工作应该使用先进的架构和更大的预训练数据集进行SSL预训练。
关键词:
BoB:Battle of the Backbones
ID:In-Distribution
OOD:Out-of-Distribution
1. 引言
影响BackBone网络性能的三个主要因素是其架构、预训练算法和预训练数据集。在这三个设计维度上,都有许多选择,为从业者构建计算机视觉系统提供了无数的组合。尽管有这么多的选择,但是从业者却没有可参考的资源,只能自己测试各个BackBone网络。
文章在“BackBone网络之战”中将这些BackBone网络进行对比。文章比较了许多流行的公开可用的预训练模型,还有随机初始化的基线模型,在各种下游任务上进行评估,包括图像分类、对象检测、图像检索等。为了全面考察BackBone网络的能力,文章评估它们在不同任务上的表现,这些任务分属以下几大类:
分类:文章测量BackBone在各种下游分类任务上的微调和线性探测性能,包括自然图像、医学和卫星图像数据集。图像分类任务需要BackBone网络提取识别图像前景内容的特征,而不需要定位对象在图像中的具体数量和位置。
对象检测和分割:不同于图像分类,密集预测任务需要BackBone提取包含对象精确位置的特征,在分割任务中需要像素级别定位,在检测任务中需要足够细致地绘制边界框。文章在这两个任务上评估BackBone网络。
域外泛化:在实际应用中,计算机视觉系统通常会被部署在不同于训练数据分布的新数据上。即使是高性能模型,在域变化下也已知会失败。因此,文章评估模型在新下游域的泛化能力。
图像检索:图像检索需要BackBone网络通过特征空间中的相似度来匹配相似的图像。文章探索需要根据语义内容、视觉相似度等不同标准匹配图像的任务。
除了协助从业者构建计算机视觉系统之外,这个基准测试的另一个核心目标是帮助引导研究界朝着寻求设计更好的BackBone网络的有益研究方向前进。BoB揭示了预训练例程和架构的优势和劣势,揭示了常见的误解和基本限制,以及改进的有希望的方向。下面,文章总结了几个主要的研究结果,并讨论了以前比较BackBone网络的努力。
1.1 BackBone之战:摘要
文章的后续部分包含了大量的实验细节。因此,文章在下面提炼出几个关键的发现:▷ 在BoB的一系列全面评估中,涵盖了任务、数据集和设置(包括ID和OOD),在监督学习下,ConvNeXt-Base、SwinV2-Base(使用ImageNet-21k进行训练)和CLIP ViT-Base表现最好。在较小的规模上,ConvNeXt-Tiny和SwinV2-Tiny获胜,其次是DINO ViT-Small。▷ 尽管最近关注的焦点放在基于Transformer的架构和自监督学习上,但在文章考虑的大多数任务中,通过监督学习预训练的高性能卷积网络优于Transformer。▷ 观察到监督预训练的优越性是因为这些模型在更大的数据集上进行了训练。在相同数据集规模上的比较中,自监督学习模型胜过其监督学习的对应模型。▷ ViT对预训练数据量和参数数量的敏感性高于CNN。▷ 在任务间的性能存在强相关性 - 在BoB中表现最好的BackBone网络往往在各种任务和设置中都表现出色。请参见图1。
2. BoB指南
文章比较的BackBone之间的区别主要来自于它们的架构、预训练算法和预训练数据集。表1总结了文章要比较的BackBone,包括预训练算法、粗略分类、预训练数据集和架构。文章附录B中详细描述了每个算法、预训练数据集和架构。
大小和公平比较的注意事项。许多从业者有限的计算资源,而且在自己的数据集上需要调优超参数而不超过计算预算。为了模拟这种场景,文章进行适度的超参数网格搜索,不允许特别长的训练计划,并且不考虑比ConvNeXt-Base更大的架构,除了Stable DiffusionBackBone,因为它只有一个尺寸。具体的超参数网格在后续章节详细说明。此外,文章仅使用公开可用的checkpoint,这些checkpoint对从业者也是可访问的。可用的checkpoint进行了不同程度的超参数调优,不同的预训练算法在不同的数据集和架构上进行了训练,所以精确的公平比较是不可行的。尽管如此,这种现有checkpoint的比较对从业者是相关的,因为它代表着现实的条件。文章在下游任务上为每个BackBone使用相同大小的超参数扫描。
2.1 任务
为了全面检验BackBone网络的能力,文章评估它们在许多下游任务上的表现,这些任务分属以下几类:
分类:在3.1节中测量BackBone在各种下游分类任务上的微调和线性探测性能,包括自然图像、医学和卫星图像数据集。图像分类任务需要BackBone网络提取识别图像前景内容的特征,而不需要定位对象在图像中的具体数量和位置。
对象检测和分割:不同于图像分类,3.2节中的密集预测任务需要BackBone提取包含对象精确位置的特征,在分割任务中需要像素级别定位,在检测任务中需要足够细致地绘制边界框。文章在这两个任务上评估BackBone网络。
域外泛化:3.3节中,除了评估BackBone在各种下游任务上的域内性能,文章还考察这种性能如何转换到域外设置。
图像检索:图像检索需要BackBone网络通过特征空间中的相似度来匹配相似的图像。在3.4节中探索需要根据语义内容、视觉相似度等不同标准匹配图像的任务。
3. 实验设置
文章现在描述每个任务的实验设置。具体来说,文章列出学习方案、数据集和评估指标。完整的实验和实现细节请见附录C。
3.1 分类
学习方案。文章使用两个微调方案评估预训练BackBone在各种数据集上的性能:端到端微调(包括只使用少量标记样本的实验)和线性探测。在前一种情况下,文章在给定的数据集或它的一部分上端到端微调整个模型,并在测试分割上测量准确率。在线性探测场景中,文章从冻结的预训练BackBone中提取特征,并仅在这些预训练表示上学习一个线性分类器。这两种方案在之前的工作中被广泛使用来评估自监督学习等预训练方法,如在自监督视觉表示学习[12, 30, 8, 10]和视觉语言预训练[1, 105]中。
数据集和评估指标。文章在6个常见的图像分类数据集上进行实验,涵盖自然图像(ImageNet-1K [17], CIFAR-100 [46], Flowers-102 [64], Aircraft [60])、卫星图像(EuroSAT [31])和医学X射线数据(CheXpert [37]),展示预训练BackBone的泛化性和迁移性。文章使用的所有数据集都是公开可用的,文章在附录C中列出了它们的详细信息,包括大小和类别数。在只使用训练集的一部分进行微调的实验中,文章随机采样1%和10%的训练样本进行微调。在采样子集时,文章保持原始数据集的标签分布。注意,文章这里只考虑域内泛化,其中训练和测试集来自同一来源。
评估时,文章使用分类准确率和ROC曲线下面积(AUC)作为单标签和多标签分类任务的性能指标。除了超参数向量之间最佳的得分之外,文章还绘制前几个时期的准确率,以显示不同预训练BackBone的收敛率。此外,文章在同一设备上基准测试每个BackBone的延迟和内存使用情况。
3.2 对象检测和分割
学习方案。对于对象检测和实例分割的评估,文章采用Cascade Mask R-CNN框架[5]。文章使用三种方案进行实验:(1)从随机初始化进行端到端训练,(2)使用预训练BackBone进行端到端微调,(3)使用冻结的BackBone进行微调。虽然用冻结的BackBone进行微调在检测和分割中不典型,但后一种方案允许文章探测预训练模型的特征中包含的定位信息,并与线性探测分类实验互补。参见附录C.1关于ViT,尤其是大型ViT,在更昂贵的训练方案下可能超过其他模型性能的讨论。
数据集和评估指标。文章在流行的COCO数据集[53]上进行对象检测和实例分割评估。文章遵循COCO式的平均精度(AP)指标,该指标在各种Intersection over Union(IoU)阈值上进行平均。文章报告边界框平均精度(box AP)、box AP@50和AP@75用于对象检测,以及掩膜平均精度(mask AP)、mask AP@50和mask AP@75用于实例分割[54]。
3.3 域外泛化
尽管现代网络在它们训练的数据分布上可能展示出强大的性能,但大量的以前的工作[70, 32]发现,这种模型的性能在分布发生变化时可能会显著下降。除了评估BackBone在各种下游任务上的域内性能之外,文章还研究这种性能如何转换到域外(OOD)设置。
学习方案。几个特定任务的数据集和基准已被提出来评估模型对其训练分布偏差的稳健性。具体来说,文章研究经过训练的BackBone在两个任务上的泛化性能,即(1)图像分类和(2)对象检测,以及两种类型的分布转移,(A) ImageNet内部的结构和样式变化以及(B) 从合成到真实的泛化。
数据集和评估指标。文章考虑以下广泛的OOD评估基准:
(A)对结构和样式的变化的稳健性。文章测量在ImageNet上训练或微调的模型在以下基准上的OOD泛化:
(i) ImageNet-A [34]。ImageNet-A(dversarial)包含ImageNet测试图像的200个类别的策略性子集,这些图像对训练好的深度模型具有特定挑战性。
(ii) ImageNet-V2 [75]。ImageNet-V2是在原始数据集收集后10年按照完全相同的收集方案构建的额外的与ImageNet类似的测试集。
(iii) ImageNet-R [33]。ImageNet-R(endition)包含200个来自ImageNet的类别的艺术Rendering,包括卡通、涂鸦、刺绣、折纸、雕塑等。
(iv) ImageNet-S [92]。ImageNet-S(ketch)是从ImageNet类别中网络爬取并人工清理的黑白素描图像集合。
(B) 从合成到真实的泛化。文章还测量在合成数据上训练并在真实数据上测试的模型的性能。合成数据已成为一种流行的替代方法,用于在采集真实世界中可靠注释的数据很难或很贵的情况下。文章在以下两个流行基准上测量从合成到真实的泛化,用于图像分类和对象检测:
(i) VisDA Syn→Real。VisDA分类基准由约152k张合成图像和约55k张真实图像组成,跨12个类别。VisDA中的合成图像是对象从多个视点在不同照明条件下的3D渲染。真实图像是从COCO数据集中裁剪的12个类别的作物。
(2) Sim10k→Cityscapes。对于对象检测,文章使用Sim10k作为合成训练数据集,使用Cityscapes作为真实评估数据集。Sim10k由来自GTAV的约10k张街景图像组成。Cityscapes由约5k张密集注释的街景图像组成,这些图像是从车辆视角拍摄的现实世界图像。遵循以前的工作[13],文章在整个Sim10k上进行训练,以检测“汽车”的实例,并在Cityscapes的验证分割上测量检测性能。
对于图像分类,文章报告在OOD测试集上的分类准确率;对于对象检测,文章报告mAP@50的泛化性能。
3.4 图像检索
文章在各种图像检索数据集上进行评估,包括基于内容的图像检索和分类数据集,文章将它们改造为语义检索任务。对于地理地标检索,文章利用牛津数据集[68]和巴黎数据集[69]。为确保准确性,文章使用这些数据集的修正标签版本[71]。INSTRE数据集[94]由放置在不同位置和条件下的玩具和形状不规则的产品组成。为了检验细粒度的检索,文章采用Caltech-UCSD Birds-200数据集(CUB-200)[90],其中包含在不同背景、姿势和照明条件下拍摄的各种鸟类。对于多样化的自然图像,文章使用iNaturalist数据集[87]。这个数据集提供了一个广泛的细粒度类别,被分类到13个超类,包括植物、昆虫、鸟类和哺乳动物。为了评估真实场景下的检索性能,文章采用Objectnet数据集[2]。该数据集由313个对象类组成,具有随机变化的背景、旋转和成像视角。对于大规模地标识别,文章利用谷歌地标V2数据集[98],其中包含约20万个独特地标。最后,文章采用INRIA Copydays数据集[19],其中包含一小部分度假照片。
在上述数据集中,iNaturalist、Objectnet和CUB-200可以分类为语义检索数据集,而其余数据集属于基于内容的检索数据集。
文章使用平均精度或mAP[67]来评估模型性能。文章首先计算给定查询图像的平均精度,然后计算所有查询的平均值以找到mAP。文章还测量Recall@k,它测量返回第一个正确匹配之前的结果数量,并计算这些未命中值的倒数的平均值MRR(平均互反等级)。对于所有指标,值越高越好。
4 从业者。应该选择哪个BackBone网络?
如今的从业者可以从各种大小、训练方法和预训练数据的大量BackBone网络中进行选择:从业者应该为某项特定任务或一般情况选择哪个BackBone网络?为了回答这个问题,在BoB中,文章系统地比较了各种公开可用的BackBone网络(参见表1),横跨多个任务、数据集和设置。为了进行这些比较,文章使用以下排名方案:
(1) 设置特定的Z分数。对于特定任务和设置(例如ImageNet上的Top-1分类精度),文章首先为所有正在评估的BackBone计算z分数 - 即,对于特定性能(例如准确性)值${x_i}^N_{i=1}$,z分数计算为${ (x_i - μ) / σ }^N_{i=1}$,其中μ和σ分别是样本的平均值和标准差。这允许文章测量一个特定BackBone相对于该设置中所有BackBone的“平均”性能好多少(标准差以上或以下)。
(2) 跨设置比较。为了在不同任务和设置之间比较BackBone,文章简单地聚合和比较之前获得的z分数以获得一个相对(粗略)的BackBone排名。
使用排名,文章不仅可以报告每个任务的最佳表现BackBone,还可以报告跨任务、数据集和设置的整体表现最佳的BackBone(见表2摘要)。
4.1 特定任务的BackBone网络
分类。在多个数据集和实验设置(微调、线性探测、完整和低样本训练)中,文章发现“在IN-21k上监督训练的SwinV2-Base(在IN-1k上微调)”是表现最佳的BackBone网络,其次是“CLIP ViT-Base”和“在IN-21k上监督训练的ConvNeXt-Base”(见第1行,表2)。
对象检测和分割。对于对象检测和实例分割,文章发现“在IN-21K上监督训练的ConvNeXt-Base” > “在IN-21k上监督训练的SwinV2-Base(在IN-1k上微调)” > “在IN-1k上监督训练的ConvNeXt-Base”。
图像检索。对于图像检索,文章发现“在IN-21k上监督训练的ConvNeXt-Base”是最佳选择,其次是“在IN-21k上监督训练的SwinV2-Base(在IN-1k上微调)”和“在LAION-2B上训练的CLIP ViT-B”。
(OOD)分类。在各种OOD评估中,文章发现“在IN-21k上监督训练的ConvNeXt-Base” > “在IN-21k上监督训练的SwinV2-B(在IN-1k上微调)” > “在LAION-2B上训练的CLIP ViT-Base”。
(OOD)对象检测。对于从合成到真实的对象检测,文章发现“在IN-1k上监督训练的ConvNeXt-Base”是最佳BackBone,其次是“在IN-1k上监督训练的ConvNeXt-Tiny”和“在IN-21k上监督训练的ConvNeXt-Base”。
4.2 整体最佳的BackBone网络
对于没有具体任务需求的从业者,整体表现最好的模型是“在IN-21k上监督训练的ConvNeXt-Base”,其次是“在IN-21k上监督训练的SwinV2-Base(在IN-1k上微调)”和“在LAION-2B上训练的CLIP ViT-Base”。总体来说,文章注意到以监督方式训练的BackBone(SwinV2-Base、ConvNeXt-Base)或具有视觉语言监督的BackBone(CLIP ViT-Base)优于其他BackBone。此外,文章发现CLIP ViT-Base紧随在IN-21k上监督训练的ViT-Base(在IN-1k上微调)之后。
4.3 预算有限的BackBone网络
许多计算机视觉应用需要高效的BackBone网络以实现快速或设备端推理。在这一节中,文章对三个小BackBone进行基准测试:在ImageNet-1k上以监督方式预训练的RegNetX-400F [73]、EfficientNet-B0 [83]和ResNet-18 [28]。文章在表3中对这些小BackBone在一系列任务上的性能进行了排名。文章发现在整体和分类、检索、OOD分类方面,EfficientNet-B0的表现最好,其次是RegNetX-400MF,然后是ResNet-18。有趣的是,在检测和分割方面,新型高效架构仍不如ResNet。
5 观察结果和趋势
ViT和CNN的性能比较。现代架构明显优于普通ViT。文章在表2中看到,最佳性能的BackBone网络(ConvNeXt-Base)是卷积的,其次是具有分层transformer的架构(SwinV2-Base)。后者融合了强大的空间归纳偏置。这些发现表明,社区应该放弃仍在广泛使用的普通ViT。需要说明的是,文章没有评估非常大的模型,在更大的规模下,ViT可能会胜过其其他变体或卷积网络。
ViT比CNN更依赖规模。对于BoB中考虑的BackBone组,文章发现参数数量的相对性能(z分数)对ViT(斯皮尔曼相关系数 = 0.58)的正相关性高于CNN(斯皮尔曼相关系数 = 0.35)。类似地,而整体相对性能与预训练数据的规模相关,这个相关性对ViT (ρ = 0.72)也明显高于CNN (ρ = 0.33)。这个观察表明,基准测试更大的BackBone可能产生不同的赢家,可能是具有基于transformer的架构。
监督或不监督? 监督学习BackBone占主导地位,但主要是因为它们可以在更大的数据集上预训练。在相似大小的数据集上,SSLBackBone可以胜过其监督对手。文章得到每个预训练方式的前3个BackBone的平均分数,即自监督、用ImageNet-1K监督和用ImageNet-21K监督(见附录D)。在IN-21K上用监督学习预训练的ConvNeXt和SwinV2在所有任务上都优于SSLBackBone。结果表明,文章应该尝试将SSL方法与先进的架构相结合,并在大数据集上进行训练以与监督学习竞争。在这些实验中,监督预训练的checkpoint通常可在更大的数据集(ImageNet-21k)上获得。当比较在类似大小数据集上预训练的模型时,SSL或视觉语言预训练方法在分类(域内和域外)和检索任务上获得了更好的性能,这些任务高度依赖于学习的表示。然而,监督学习BackBone在检测和分割方面保持决定性优势。文章还可以比较使用相同ViT-Base架构的BackBone,发现SSL方法确实优于ImageNet-1k监督BackBone,但比ImageNet-21k训练的BackBone差。
任务之间的性能高度相关。在文章考虑的任务对中,文章发现任务对之间的性能存在高度正相关(通常ρ> 0.8)。这一发现支持通用基础模型在计算机视觉中的当前趋势。此外,这一发现也支持最近的工作,该工作认为单一的归纳偏差可以解决一系列看似不同的问题[24]。然而,值得注意的是,检索任务与分类和检索排名之间的相关性相对较低但仍具有统计意义(ρ = 0.49)。这种较低的相关性可以归因于MiDaS和MAE预训练模型在检索方面的性能限制。在删除这两个BackBone后,相关系数ρ增加到0.8,这进一步证明了上述模型对观察结果的影响。
Transformer在端到端微调下表现优异,而卷积网络在线性探测下表现优异。对于“线性探测”实验,文章冻结预训练BackBone,仅学习头部。请注意,对于检测和分割,头部不仅是一个线性层。通过检查两种微调策略之间的性能差异(图2),文章发现ViT从端到端微调中受益明显多于CNN,无论是在监督预训练还是自监督预训练下。参见图2中的在密集预测任务上的比较。
CLIP模型以及视觉语言建模中先进架构的前景。对于几乎所有任务(OOD检测除外),CLIP预训练优于普通视觉transformer,即使与在ImageNet-21k上监督训练的BackBone相比也是如此。在所有BackBone中,CLIP仅次于在IN-21k上训练的SwinV2和ConvNeXt,这显示了视觉语言预训练的力量,并再次表明,在进行自监督或弱监督学习时,文章应考虑除普通ViT之外的更多BackBone架构。
生成BackBone怎么样? 与用监督或自监督方法和对比损失训练的模型相比,用生成对抗目标训练的BackBone,如MAE或Stable Diffusion,其性能相对较差。文章建议谨慎解释这个结果,因为目前仅对Stable Diffusion在有限的任务上进行了评估。尽管如此,Stable Diffusion是一个更大的BackBone,并在一个非常大的数据集上训练,但它展示了比文章考虑的其他模型差的性能。
“小”BackBone之战。考虑到有限的资源,文章还比较了BoB中“小”BackBone的子集(参数< 30M)—— ViT-Small、ConvNeXt-Tiny、Swin-Tiny和ResNet-50架构。总体而言,文章发现在IN-1k上监督训练的ConvNeXt-T表现最好,其次是在IN-1k上监督训练的SwinV2-T,然后是在IN-1k上训练的DINO ViT-S。有趣的是,监督学习在这里再次占据主导地位,而且仅在IN-1k上预训练的BackBone胜过在考虑得多更大的数据集上训练的BackBone(MiDaS)。
性能与速度? 文章的分析显示,在相同的NVIDIA RTX A5000上计算的吞吐量与平均性能z分数之间存在较强的负相关(ρ = -0.41)。考虑每个BackBone时,这一发现与文章之前的观察一致,即更大的模型往往具有更优越的性能。因此,为了获得增强的性能,可能需要牺牲速度。
单目深度估计作为通用预训练策略。在文章的实验中,即使在自然图像域之外,例如在卫星图像上,MiDaS也达到了与顶级传统监督和自监督学习BackBone相媲美的性能,在图像分类、对象检测和分割方面。这个观察表明,深度估计可以作为强大和通用的主要或辅助预训练任务。
校准和测试似然与准确率相关。在ImageNet测试集上,文章测量了期望校准误差(ECE)以及交叉熵损失。而测试似然与准确率高度相关(r = -0.8278),ECE的相关较弱(r = -0.4876)。在两种情况下,文章都观察到p值低于0.05。文章还注意到,自监督预训练通常会导致较差的校准。
CNN和SSL对对抗攻击更具鲁棒性。文章还使用受$l_∞$约束的PGD对抗攻击,以多个半径(见附录表19)测量每个BackBone在ImageNet测试集上的对抗鲁棒性。对于每个架构,当文章拥有自监督学习版本时,文章看到监督预训练的鲁棒性总是较差。此外,ViT比卷积网络更容易受到对抗示例的攻击。值得注意的是,即使在监督训练下,ConvNeXt的对抗鲁棒性也更强。
6 接下来会发生什么?
每个计算机视觉模型的核心是一个BackBone网络。在文章的BackBone网络对战中,文章比较了1500多次训练运行,以发掘对计算机视觉从业者和研究人员有益的见解。
为指导从业者,文章分析了在广泛任务范围内公开可用视觉BackBone的性能,从分割和检测到分类和检索。文章发现监督ConvNext、监督SwinV2和CLIP模型在这一广泛任务范围内性能良好。对于计算资源受限的设置,在文章的“小”BackBone之战中,文章发现较小的对应的架构监督ConvNext-T和SwinV2效果好,其次是带小ViT的DINO。BoB为从业者提供了从令人眼花缭乱的选择中选择合理BackBone的指南。
对于展望未来的研究人员,文章还观察到几个显著趋势。首先,文章发现跨任务的性能高度相关,这表明从专用视觉BackBone向通用BackBone的转变,这些通用BackBone可以在各种任务上发挥良好作用。其次,文章发现吞吐量和性能之间存在反相关,这表明扩展仍然是提高BackBone的有希望途径。最后,文章发现虽然文章的实际建议包括许多监督模型,但在与标准监督训练的公平比较中,自监督学习很有前景。通过发布文章所有的实验结果以及用于测试新BackBone的代码,文章希望BoB能成为今天的从业者和研究明天问题的研究人员的有用指南。
局限性。文章指出,从BoB获得的见解取决于在此工作中考虑的任务词汇、BackBone网络和设置。文章希望通过这项研究得出的结论能够为计算机视觉研究人员提供实际的考虑因素,同时也认识到这些见解需要随着引入更多的BackBone网络、任务和设置而不断发展。最后,文章指出,BoB中的研究主要集中在与性能相关的方面,对于其他重要方面(模型中的偏见等)的探索仍然存在。
文章的基准测试不包括比ConvNext-Base更大的BackBone网络,除了稳定扩散(Stable Diffusion),一些排名可能在大规模上发生变化。例如,虽然文章发现现代经过监督学习预训练的卷积网络在大多数任务上表现最好,但文章也发现Transformer在规模上更有优势,无论是在预训练数据还是架构规模方面。在非常大的规模上,TransformerBackBone网络有可能超过卷积BackBone网络。
7 计算成本和碳足迹
文章中的实验总计消耗了127k GPU小时的NVIDIA RTX A100卡。假设GPU的平均碳效率为每千瓦时0.37公斤CO2当量,则总排放量估计为11792.36公斤CO2当量[48]。
全部0条评论
快来发表一下你的评论吧 !