通过训练大型卷积网络,可以预测数十亿社交媒体图像的hashtag

电子说

1.2w人已加入

描述

为了解决视觉模型依赖有监督预训练、难以迁移的问题,Facebook何恺明等多名研究者发表了一项独特的迁移学习研究,无需数据清洗和手工标记数据,通过训练大型卷积网络可以预测数十亿社交媒体图像的hashtag,在图像分类和目标检测任务上都得到了迄今最高的精度。

用于各种任务的最先进的视觉感知模型都依赖于有监督的预训练。ImageNet分类实际上是这些模型的预训练任务。然而,ImageNet现在已有近十年的历史,并且按现代标准而言,它的规模相当“小”。

即便如此,对于要用多个数量级更大的数据集进行预训练的行为,我们所知甚少。原因很明显:这些数据集很难收集,也很难注释。

为了解决这个问题,来自Facebook的包括何恺明在内的多名研究者发表了一项独特的迁移学习研究,通过训练大型卷积网络,可以预测数十亿社交媒体图像的hashtag。

这一研究再次引起热议,吴恩达也在推特上盛赞:

“当你在前所未有的35亿张(真的很大!)有标记图像上训练,然后迁移到新的任务,神经网络的预训练能不断改进。在我看来,我们还远远没有接近预训练/迁移学习的极限。”

该研究的实验表明,对大规模 hashtag 预测进行训练可以得到很好的结果。研究展示了几项在图像分类和目标检测任务上的改进,并报告了迄今为止最高的ImageNet-1k single-crop,top-1 精度:85.4%(top-5 精度是97.6%)。大量实验还提供了关于大规模预训练和迁移学习效果之间关系的新的经验数据。

无需数据清洗和人工标记,得到优异迁移性能

几乎所有最先进的视觉感知算法都依赖于同一个方案:(1)在一个大型、手动注释的图像分类数据集上预训练卷积网络;(2)在一个较小的、特定于任务的数据集上微调网络。这个方案已经广泛使用多年,并在许多任务上取得了令人印象深刻的改进,包括物体检测、语义分割、人体姿势估计、视频识别、单目深度估计等。事实上,它是如此有效,以至于现在不使用有监督的预训练被认为是蛮干。

ImageNet数据集实际上是一个预训练数据集。虽然有研究分析了各种ImageNet预训练因素对迁移学习的影响,或使用与ImageNet规模一致的其他数据集,但对于在大几个数量级的数据集上进行预训练的了解相对较少。

原因有很多:这样大的数据集很少,因为构建新的数据集需要大量人力,并且需要大量的计算资源来进行实验。然而,鉴于预训练的核心作用,扩展在这一领域的科学了解非常重要。

本文试图通过研究一个未被探索的数据体系来解决这个复杂的问题:数十亿张带有社交媒体“标签”(hashtags)的真实图片。这个数据源的优点是:它很大,并且在不断增长,以及从注释角度来说它是“免费”的,因为不需要手动标记。但是,这个数据源也有潜在的缺点:hashtag可能噪音太多而不能用作有效的监督信号,并且图像分布可能存在偏差,从而损害迁移学习。因此,在这些数据上进行训练不一定能产生良好的迁移学习结果。

本研究的主要结果是,在没有人工数据集管理或复杂的数据清洗的情况下,使用数千个不同的hashtag作为标签,在数十亿Instagram图像上训练的模型表现出了优异的迁移学习性能。例如,我们观察到在图像分类和物体检测任务上相比state-of-the-art的技术有所改进,我们在ImageNet-1k图像分类数据集 single-crop,top-1的准确率为85.4%,相比此前最优的79.8%要高;在COCO物体检测数据集获得45.2% AP,高于此前最优的43.7%。

但是,我们的主要目标是提供关于这个先前未被探索的体系的新实验数据。为此,我们进行了大量实验,揭示出一些有趣的趋势。例如,我们发现“hashtag engineering”(即收集以特定hashtag子集标记的图像)是改善迁移学习结果的一个有前景的新方向。在大规模hashtag数据上训练对label noise意外的robust,所学的特征允许简单的线性分类器实现最优的ImageNet-1k top-1 准确率,即83.6%,没有任何微调(微调的情况下达到84.2%)。

扩大有监督预训练

在实验中,我们训练了标准的卷积网络架构来预测多达35亿张Instagram公开图像的hashtag。

Instagram 数据集

表1:用于图像分类任务的数据集

ImageNet 数据集

除了标准IN-1k数据集之外,我们还尝试了完整ImageNet 2011版本的更大子集,包含14.2M图像和22k标签。我们构建包含5k和9k标签的训练集和验证集。在所有情况下,每个类都使用50张图像进行验证。

模型

我们使用具有分组卷积层的残差网络ResNeXt [15],实验使用ResNeXt-101 32×Cd,它有101层,32组,组宽为C。

实验和结果

在实验中,我们预训练了卷积网络来进行标签预测,然后将这些网络迁移到各种任务中。

图像分类实验

我们通过三个分类目标任务(ImageNet [30], CUB2011 [21], Places365[14])的分类精度来评估Instagram预处理。我们对224×224中心裁剪的图像进行推理,并研究(1) hashtag词汇量大小,(2)训练集大小,(3) hashtag 目标中的噪声的数量,以及(4) hashtag的采样策略对结果的影响。

1、Instagram hashtag集对准确度的影响如何?

图1显示,对hashtag预测进行预训练可以显着提高目标任务的准确性:在标准的IN-1k基准测试集中,一个在约1B、具有1.5k标签的Instagram图像集上预训练的网络,最高精度达到84.2%——与仅使用IN-1k训练的相同模型架构相比,提高了4.6%;与使用优化网络架构的先前技术相比,提高了1.5%。

图1:用 IG-1B 数据集训练ResNeXt-101 的分类精度,包含不同词汇量大小的hashtag(紫色条)。灰色条表示基线模型。

Instagram预训练得到的性能改进因ImageNet任务而异。在CUB2011和Places365目标任务中,使用最大 hashtag 集训练的源模型可能表现最佳,因为17k hashtags跨越了更多对象、场景和细粒度类别。这些模式非常直观,表明源标签集和目标标签集之间的对齐是一个重要因素。

我们还使用具有17k hashtags(深紫色条)的更大的3.5B图像集,结果如图1所示。它在所有目标任务中都表现最佳。虽然IN-1M-1k模型在val-IN-1k上获得了87.5%的rectified top-1 精度,但我们的IG-3.5B-17k预训练模型精度达到了90.4%。

2、预训练图像集大小对准确度的影响如何?

图2:在IN- {1k,5k,9k}和CUB2011的分类精度。横轴表示源任务的训练图像数量。

图2显示了ImageNet验证集的分类精度(y轴),它是Instagram训练图像数量(x轴)的函数,数量范围从3.5M到3.5B。该图显示了预训练的模型的结果,用于预测具有三种不同容量(由不同颜色表示)的ResNeXt-101模型的1.5k标签(虚线)或17k标签(实线)。

3、hashtag标签的噪声对模型精度有什么影响?

图3:在IG-1B-17k上预训练的ResNeXt-101 32×16d的分类精度

图3的结果表明,网络对标签噪声具有显着的弹性:p = 10%的噪声水平导致分类精度损失小于1%,而标签噪声p = 25%,精度降低约2%。这些结果表明,如果在数十亿图像上训练网络,标签噪声可能问题不大。

4、预训练数据的采样如何影响准确性?

图4:ResInXt-101 32×4d的分类精度,在IG-1B-17k上预训练,在val-IN- {1k,5k,9k}上用三种不同的标签采样策略:自然采样,均匀采样和平方根采样。

结果表明重新采样标签分布对于获得良好的ImageNet图像分类结果非常重要:使用均匀采样或平方根采样可以提高5到6%的准确度,无论ImageNet类的数量是多少。该图还表明,随着目标类数量的增长,更大的hashtag词汇量可以提高准确度。

探索监督预训练的极限

我们试图探索监督预训练(supervised pretraining)的极限。除了在ImageNet-1k基准任务(85.4%single-crop, top-1 精度; 97.6%single-crop, top-5 精度)和其他几项视觉任务上产生最先进的结果,我们的研究还得到四个重要的观察:

1、我们的结果表明,虽然增加预训练数据集的大小是值得的,但为源任务选择标签空间以匹配目标任务的标签空间至少同等重要。我们发现,在设计用于匹配ImageNet-1k数据集中类的标签词汇表上训练的网络优于那些训练了两倍数量的图像、而没有仔细选择hashtag标签的网络(图2左上)。

这一发现为“label-space engineering”方法的设计铺平了道路,该方法旨在为特定目标任务选择最佳的(弱监督)标签集。这种标签空间工程可能比进一步增加训练模型的数据规模更有成效。

2、与先前的工作[16,17]一致,我们观察到在训练数十亿图像时,当前的网络架构是欠拟合(underfitting)的。虽然这种underfitting的确导致对hashtag的噪声具有很高的鲁棒性,但我们的结果表明,通过进一步提高网络容量可以提高目标任务准确性。例如,通过增加现有架构的层数和每层的过滤器数量,或者通过专家混合(使用跨GPU的模型并行化),可以增加容量。

3、实验结果还强调了在基准测试任务中更多地考虑视觉多样性的重要性。结果表明,如果在具有更大视觉变化的任务上评估这些特征,则视觉特征质量的差异变得更加明显。 例如,我们发现使用两个不同词汇表预训练的模型之间的准确度差异随着目标类数量的增加而增加。 我们相信对更多ImageNet类进行评估有助于更全面地评估视觉识别模型。

4、将模型转换为目标检测、实例分割和关键点检测任务的结果表明,大规模标签预测的训练可以改善分类,同时可能会损害定位(localization)的性能。 这为改进大规模、弱监督的预训练任务,以更好地适应目标任务(如检测、姿态估计等)的定位需求开辟了新的方向。

最后,我们反思了一个值得注意的事实,即hashtag prediction的训练根本不需要额外的手动注释或数据清理。我们认为,与传统的人工设计和注释数据集的方法相比,我们的研究表明了自然数据或“wild”数据的潜力。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分