三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

描述

1. 效果展示

MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

Clip

再来看看开放词汇全景分割的定性效果,图片来源于ADE20k,可以发现MasQCLIP分割出的Mask和类别精度更高。

Clip

2. 具体原理是什么?

先介绍一下基础的CLIP模型:ICML-2021的工作,多模态视觉-语言模型代表。主要用来提取zero-shot目标的特征。核心思想是,很多模型需要预定义图像类别,但是文本实际上就已经提供了未见类别的信息,融合文本就可以极大增强模型的泛化性。

MasQCLIP的思想是,利用稠密特征与预训练的CLIP模型无缝集成,从而避免训练大规模参数。MasQCLIP在使用CLIP模型构建图像分割时侧重两方面:

(1)学生-教师模块,通过从基础(已见)类中提取信息来处理新(未见)类的Mask;

(2)更新CLIP模型中查询的模型参数的微调过程。

具体Pipeline是,MasQCLIP由类无关Mask提议网络和基于CLIP的Mask分类模块组成。在Mask提议网络中,应用渐进蒸馏来分割基类之外的Mask。之后将预测的Mask送入分类模块以获得标签。为了有效利用密集CLIP特征,还提出了MasQ-Tuning策略。

Clip

再来看看这个渐进蒸馏,就是从教师模型的分割图中提取和基础类别没有重叠的Mask,用来做辅助训练,将这些额外的标注蒸馏到学生模型中,然后不停的迭代循环来提高泛化性。

Clip

3. 再来看看效果如何

开放词汇通用图像分割的定量结果,直接对比了实例分割、语义分割、全景分割三个任务。三大任务涨点都非常明显!

Clip

开放词汇实例分割结果,分别对比基类和新类别的定量精度,展示了模型的泛化性。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

Clip

开放词汇实例分割定性对比,可以发现MasQCLIP分割精度更高!

Clip








审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分