ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署

描述

在本篇工作中,研究者探索了一种统一的学习方法,通过考虑多粒度的不确定性来同时对粗粒度和细粒度的图像检索进行建模。论文的方法集成了不确定性建模和不确定性正则化来提高召回率并增强检索过程,在三个公共数据集FashionIQ、Fashion200k 和 Shoes上,所提出的方法在baseline上分别提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。

模型

论文题目: Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization 论文链接: https://arxiv.org/abs/2211.07394 论文代码: https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的检索过程包含两个步骤,即粗粒度检索和细粒度检索。粗粒度检索利用简短或不精确的描述查询图像,而细粒度检索则需要更多细节进行一对一映射。

之前工作有什么痛点?   

1. 传统的图像检索系统要求用户提前提供准确的查询图像,通常是不好获得;而添加文本反馈,用户则可以对查询图像进行的修改,来逐渐细化他们的搜索。

2. 现有的组合搜索方法通常侧重于在训练过程中优化严格的成对距离,这与一对多粗粒度测试设置不同。过多关注一对一度量学习会削弱模型对潜在候选图片的召回能力。

二、方法

1、总览  

模型

在这篇论文中,研究者不追更精细的网络结构,而是采用一种新的学习策略。因此,主要遵循现有的工作CosMo[1]来构建网络以进行公平比较,更多的结构细节在论文中进行了提供。

给定源图像 模型 和用于修改的文本 模型,我们通过Compositor组合 模型模型 得到了组合特征 模型。同时,我们通过与源图像相同的Image Encoder提取了目标图像 模型 的视觉特征 模型。我们的主要贡献是通过Augmenter进行不确定性建模,以及对粗匹配进行的不确定性正则化。   

2、不确定性建模  

模型

如上图所示,不再采用严格的一对一匹配,而是促使模型专注于一对多匹配,即从细粒度过渡到粗粒度。因此,首先引入了一个用于噪声增强的Augmenter来生成抖动,这个模块直接作用于最终的特征空间。具体而言,Augmenter向目标特征 模型 添加原始特征分布的高斯噪声。高斯噪声的均值 模型 和标准差 模型 是从原始特征 模型 计算得出的。因此,最终的抖动特征 模型 可以表示为:

模型

其中,模型模型 是与输入目标特征具有相同形状的噪声向量,模型,而 模型。通过这种方式可以使特征在有限程度上波动,接近于原始分布。

3、不确定性正则化  

现有的方法通常采用InfoNCE损失函数,可以看作是一种batch分类损失函数(batch-wise classification loss)。其简单表述如下:

模型

对于一个具有 模型 个样本的batch,给定图文合成特征 模型 和目标特征 模型,InfoNCE损失同时最大化自相似性 模型 并最小化batch中与其他样本相似性 模型模型 。可以看出,InfoNCE损失仅关注一对一的精细粒度匹配。在这项工作中旨在统一精细和粗粒度的匹配。由偶然不确定性(Aleatoric Uncertainty)[2]的启发,给定两种类型的特征 模型模型,不确定性正则化可以定义如下:   

模型

为了优化多粒度检索性能,采用了细粒度损失 模型 和论文提出的不确定性正则化 模型 的组合。因此,总损失如下:

模型

三、实验  

1、实验设置  

论文在多个数据集上(FashionIQ、Fashion200k、Shoes)测试了方法的准确性,提升了召回率。代码已经公开在github上。

2、实验结果  

展示了一些论文结果,更多的实验结果和消融实验请参考论文。

模型

在FashionIQ上的结果

模型

在Fashion200k和Shoes上的结果    

四、总结  

总的来说,该论文通过多粒度不确定性正则化的角度提出了一种新颖的通过文本反馈进行组合图像检索的方法。该方法通过不确定性建模和正则化同时对粗粒度和精细粒度的检索进行建模,从而解决了现实世界图像检索中的训练和测试不一致性问题。该方法生成抖动特征以模拟不确定范围,并根据波动范围自适应地调整权重。与现有方法相比,所提出的方法在三个公共数据集上显著提高了召回率。论文还讨论了该方法在现实场景中的潜在应用以及其对集成数据集的可扩展性。总体而言,所提出的方法为通过文本反馈进行组合图像检索面临的挑战提供了有希望的解决方案。

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分