怎么一次性处理台风天（雨/雾/雪等）？

CVer 2023-08-15 737

描述

引言：

传统的天气修复如去雨、去雪、去雾等任务，在各自的领域都取得了良好的性能。然而，这些工作通常聚焦于单种类型天气，如图：

真实世界中的恶劣天气（雨滴，雨流，雾，雪等）往往是组合出现的，这对于干净图像的修复提出了更高的挑战。针对这一问题，J. Han等人提出了 Blind Image Decomposition (BID)[1]，即将不同天气看做组合随机，强度随机，可叠加的图层，通过图像分解[2]的方式恢复所有的叠加元素 (包括干净图像)。实际上，BID可以理解为Deraining，Dehazing，Raindrop and Snow Removal等多种天气恢复的组合任务。

概述：

自BID任务提出 (BIDeN, ECCV22) 以来，仍存在两个主要问题：

现有方法需要大量数据的监督，然而高质量的图像对在恶劣的现实世界场景中通常无法获取。而合成数据集受限于手工设计的天气退化模型，不可避免地会限制最终的修复质量。

图像分解致力于通过完备的监督信号还原出包括噪声天气在内的所有图层，指向各图层的 multi-head decoder 会限制模型的结构设计与优化（如上图(e)），"decomposition" 的模式似乎也与经典的图像映射思维有些矛盾。

为了解决上述问题，我们结合 Masked AutoEncoder (MAE)[3] 提出了一种高效且简单的预训练模式：Context-aware Pretraining (CP)，
包含两个 pretext 任务：混合图像分离和损失图形重建。
假设图像的恢复过程遵循从结构到纹理的模式 (coarse-to-fine)[4]，我们的思路很简单，首先利用两个 pretext 任务在预训练阶段重建出结构信息，随后再 fine-tuning 阶段即可快速地基于结构进行纹理填充。

方法:

为了验证所提出pretext任务的有效性，我们构建了一个基线网络 Context-aware Pretrained Network (CPNet), CPNet包含两个transformer-based 的编码器，一个信息融合模块以及一个预测解码器。

在预训练期间，我们混合两个pretext任务，并从编码器获得上下文感知嵌入，然后应用解码器从嵌入中恢复原始的结构信息 (RTV平滑)[5]。其中，信息融合模块明确地利用了空间通道维度中的关联特征，而多头预测模块促进了纹理引导的外观流 (appearance flow)。
尽管简单，但自监督的预训练编码器在减少对标注需求的同时，显式地促进了基于上下文的特征学习。通过 Fine-tuning 阶段的高斯采样，外观流得以显式地利用原图中未遮挡区域的纹理特征。

损失函数方面，除了传统的重构和对抗损失，针对 appearance flow map，我们提出了一个新的采样损失：