1. 效果展示
MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。
再来看看开放词汇全景分割的定性效果,图片来源于ADE20k,可以发现MasQCLIP分割出的Mask和类别精度更高。
2. 具体原理是什么?
先介绍一下基础的CLIP模型:ICML-2021的工作,多模态视觉-语言模型代表。主要用来提取zero-shot目标的特征。核心思想是,很多模型需要预定义图像类别,但是文本实际上就已经提供了未见类别的信息,融合文本就可以极大增强模型的泛化性。
而MasQCLIP的思想是,利用稠密特征与预训练的CLIP模型无缝集成,从而避免训练大规模参数。MasQCLIP在使用CLIP模型构建图像分割时侧重两方面:
(1)学生-教师模块,通过从基础(已见)类中提取信息来处理新(未见)类的Mask;
(2)更新CLIP模型中查询的模型参数的微调过程。
具体Pipeline是,MasQCLIP由类无关Mask提议网络和基于CLIP的Mask分类模块组成。在Mask提议网络中,应用渐进蒸馏来分割基类之外的Mask。之后将预测的Mask送入分类模块以获得标签。为了有效利用密集CLIP特征,还提出了MasQ-Tuning策略。
再来看看这个渐进蒸馏,就是从教师模型的分割图中提取和基础类别没有重叠的Mask,用来做辅助训练,将这些额外的标注蒸馏到学生模型中,然后不停的迭代循环来提高泛化性。
3. 再来看看效果如何
开放词汇通用图像分割的定量结果,直接对比了实例分割、语义分割、全景分割三个任务。三大任务涨点都非常明显!
开放词汇实例分割结果,分别对比基类和新类别的定量精度,展示了模型的泛化性。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。
开放词汇实例分割定性对比,可以发现MasQCLIP分割精度更高!
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !