三项SOTA！MasQCLIP：开放词汇通用图像分割新网络

3D视觉工坊 2023-12-12 1650

1. 效果展示

MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA，涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析》。

图像分割

再来看看开放词汇全景分割的定性效果，图片来源于ADE20k，可以发现MasQCLIP分割出的Mask和类别精度更高。

图像分割

2. 具体原理是什么？

先介绍一下基础的CLIP模型：ICML-2021的工作，多模态视觉-语言模型代表。主要用来提取zero-shot目标的特征。核心思想是，很多模型需要预定义图像类别，但是文本实际上就已经提供了未见类别的信息，融合文本就可以极大增强模型的泛化性。

而MasQCLIP的思想是，利用稠密特征与预训练的CLIP模型无缝集成，从而避免训练大规模参数。MasQCLIP在使用CLIP模型构建图像分割时侧重两方面：

（1）学生-教师模块，通过从基础（已见）类中提取信息来处理新（未见）类的Mask；

（2）更新CLIP模型中查询的模型参数的微调过程。

具体Pipeline是，MasQCLIP由类无关Mask提议网络和基于CLIP的Mask分类模块组成。在Mask提议网络中，应用渐进蒸馏来分割基类之外的Mask。之后将预测的Mask送入分类模块以获得标签。为了有效利用密集CLIP特征，还提出了MasQ-Tuning策略。

图像分割

再来看看这个渐进蒸馏，就是从教师模型的分割图中提取和基础类别没有重叠的Mask，用来做辅助训练，将这些额外的标注蒸馏到学生模型中，然后不停的迭代循环来提高泛化性。

图像分割

3. 再来看看效果如何

开放词汇通用图像分割的定量结果，直接对比了实例分割、语义分割、全景分割三个任务。三大任务涨点都非常明显！

图像分割

开放词汇实例分割结果，分别对比基类和新类别的定量精度，展示了模型的泛化性。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析》。

图像分割

开放词汇实例分割定性对比，可以发现MasQCLIP分割精度更高！

图像分割

审核编辑：刘清

打开APP阅读更多精彩内容