CLE Diffusion：可控光照增强扩散模型

CVer 2023-09-11 2240

描述

本文介绍了由北交大、UT Austin、A*Star团队提出的基于扩散模型的可控低光增强方法，论文被ACM MM 2023收录。

CLE Diffusion: Controllable Light Enhancement Diffusion Model 论文：arxiv.org/abs/2308.06725 代码：github.com/YuyangYin/CLEDiffusion 主页：yuyangyin.github.io/CLEDiffusion/ 在CVer微信公众号后台回复：CLE，可以下载本论文pdf Introduction

低光图像增强技术近年来受到了广泛的关注，目前的方法通常假设一个理想的增亮程度，对图像整体进行均匀的增强，同时也限制了用户的可控性。为了解决这个问题，本文提出了可控光照增强扩散模型（Controllable Light Enhancement Diffusion Model），可以让用户输入所需的增亮级别，并利用SAM模型，来实现交互友好的区域可控增亮。如图演示效果，用户可以通过简单的点击来指定增亮的区域。

Method

本文提出了新型的可控光照增强框架，主要采用了条件扩散模型来控制任意区域的任意亮度增强。通过亮度控制模块（Brightness Control Module)将亮度信息信息融入Diffusion网络中，并且设计了和任务适配的条件控制信息和损失函数来增强模型的能力。同时本文使用了Mask输入和SAM模型(Segment-Anything Model)来进一步增强可控性，使得用户可以通过简单的点击形式实现任意区域的增亮。整体的框架如下图所示：

条件控制扩散模型

亮度控制板块

为了高效的控制亮度信息，本文采用了classifier-free guidance(CFG)方法。CFG采用同时训练条件扩散模型(conditional diffusion model)和无条件扩散模型(unconditional diffusion model)的方式来实现。在本任务中，将亮度值(brightness level)视作class label，由于亮度具有连续性，我们的class label也是连续的，可以实现更精细的亮度调节。对于条件扩散模型，本文通过计算normal-light image的平均亮度 λ ，然后通过orthogonal matrix将其在编码成illumintion embedding。然后通过FiLM layer将其注入到UNet的feature map中。对于无条件扩散模型，本文将illumintion embedding的值设置为0。实验中为了提升采样速度，采用DDIM采样的办法，因此总体的算法流程可以总结为:

区域控制增亮

在实际增亮过程中，用户相比于全局增亮图片其实更加关注区域的亮度控制，本文采用了Mask-CLE Diffusion来解决这个问题。首先采样了一批羽化边缘的随机mask，通过将normal-light image和mask混合得到了一个新的合成数据集。然后将mask信息拼接到扩散模型的输入中，训练得到新的增亮模型。SAM(Segment-Anything Model)可以实现任意图片的分割。在SAM的帮助下，Mask-CLE Diffusion提供了更好的用户交互体验，可以让用户通过点击的形式获得指定区域的mask并进行增亮。

辅助损失函数