用于学习对象级、语言感知和语义丰富视觉表征的GLIP模型

深度学习自然语言处理 2022-10-26 2059

描述

简介

问题

Visual recognition 模型通常只能预测一组固定的预先确定的目标类别，这限制了在现实世界的可扩展能力，因为对于新的视觉概念类别和新的任务领域需要新的标注数据。

CLIP可以在大量图像文本对上有效地学习 image-level 的视觉表征，因为大规模匹配的图像文本对包含的视觉概念比任何预定义的概念都更广泛，预训练的CLIP模型语义丰富，可以在 zero-shot 下轻松地迁移到下游的图像分类和文本图像检索任务中。

为了获得对图像的细粒度理解(如目标检测、分割、人体姿态估计、场景理解、动作识别、视觉语言理解)，这些任务都非常需要 object-level 的视觉表征。

方案

这篇论文提出了 grounded language-image pretraining (GLIP) 模型，用于学习对象级、语言感知和语义丰富的视觉表征。GLIP将 object detection 和 phrase grounding 结合起来进行预训练。这有两个好处：

GLIP可以同时从 detection 和 grounding 数据中训练学习，以改进两种任务，训练一个优秀的 grounding 模型；

GLIP可以通过 self-training 的方式生成 grounding boxes(即伪标签)来利用大量的图像文本对数据，使学习到的视觉表征具有丰富的语义。

实验上，作者对27M grounding data 进行预训练(包括3M人工注释和24M网络爬取的图像文本对)。训练学习到的视觉表征在各种目标级别的识别任务中都具有较强的zero/few shot迁移能力。

当直接在COCO和LVIS上评估(预训练期间没有训练COCO中的图像)时，GLIP分别达到 49.8 AP和 26.9 AP；

当在COCO上进行微调后，在val上达到 60.8 AP，在test-dev上达到 61.5 AP，超过了之前的SoTA模型。

主要贡献

「1、Unifying detection and grounding by reformulating object detection as phrase grounding」

改变了检测模型的输入：不仅输入图像，还输入 text prompt(包含检测任务的所有候选类别)。例如，COCO目标检测任务的 text prompt 是由80个COCO对象类别名组成的文本字符串，如图2(左)所示。通过将 object classification logits 替换为 word-region alignment 分数(例如视觉region和文本token的点积)，任何 object detection 模型都可以转换为 grounding 模型，如图2(右)所示。与仅在最后点积操作融合视觉和语言的CLIP不同，GLIP利用跨模态融合操作，具有了深度的跨模态融合的能力。

「2、Scaling up visual concepts with massive image-text data」

给定 grounding 模型(teacher)，可以自动生成大量图像-文本对数据的 grounding boxes 来扩充GLIP预训练数据，其中 noun phrases 由NLP解析器检测，图3为两个 boxes 的示例，teacher模型可以定位到困难的概念，如注射器、疫苗、美丽的加勒比海绿松石，甚至抽象的单词(视图)。在这种语义丰富的数据上训练可以生成语义丰富的student模型。

「3、Transfer learning with GLIP: one model for all」

GLIP可以有效的迁移到各种任务中，而只需要很少甚至不需要额外的人工标注。此外，当特定于任务的标注数据可用时，也不必微调整个模型，只需微调特定于任务的 prompt embedding，同时冻结模型参数。