深度学习低光图像增强综述（译）

张嘉振 2023-07-03 6033

电子说

1.4w人已加入

描述

论文原文地址：https://arxiv.org/abs/2104.10729v1

github：https://github.com/Li-Chongyi/Lighting-the-Darkness-in-the-Deep-Learning-Era-Open

百度云（word版翻译及原文pdf）：https://pan.baidu.com/s/1zJ7tU-GpT7O3FYvSN-_7ZA?pwd=gzrr 密码：gzrr

Lighting the Darkness in the Deep Learning Era

Abstract

低光图像增强 (LLIE)旨在提高在照明较差的环境中捕获的图像的感知或可解释性。该领域的最新进展以基于深度学习的解决方案为主，其中采用了许多学习策略、网络结构、损失函数、训练数据等。在本文中，我们提供了一个全面的调研，涵盖从算法分类到未解决的开放问题的各个方面。为了检验现有方法的泛化性，我们提出了一个大规模的低光图像和视频数据集，其中图像和视频是由不同的手机相机在不同的光照条件下拍摄的。此外，我们首次提供了一个统一的在线平台，涵盖了许多流行的 LLIE 方法，其结果可以通过用户友好的 Web 界面生成。除了在公开可用的数据集和我们提出的数据集上对现有方法进行定性和定量评估外，我们还验证了它们在黑暗中人脸检测的性能。本研究中的数据集和在线平台可以作为未来研究的参考来源，促进该研究领域的发展。本文提出的平台和收集的方法、数据集和评估指标是公开的，并将定期更新在https://github.com/Li-Chongyi/Lighting-the-Darkness-in-the-Deep-Learning-Era-Open。我们将发布我们的低光图像和视频数据集。

1 INTRODUCTION

由于不可避免的环境和/或技术限制（例如照明不足和曝光时间有限），图像通常在次优照明条件（sub-optimallighting condition）下拍摄，受到背光、非均匀照明和弱照明的影响。此类图像的美学质量受损，并且造成诸如目标跟踪、识别和检测等高级任务信息的不理想的传输。图 1 展示了由次优照明条件引起的退化的一些示例。

弱光增强是图像处理的基本任务之一。它在不同领域有广泛的应用，包括视觉监控、自动驾驶和计算摄影。尤其是智能手机摄影已变得非常常见。受限于相机光圈的大小、实时处理的要求以及内存的限制，在昏暗的环境中使用智能手机的相机拍照尤其具有挑战性。在此类应用中增强低光图像和视频是一个令人兴奋的研究领域。

传统的弱光增强方法包括基于直方图均衡的方法和基于Retinex 模型的方法。后者受到的关注相对较多。典型的基于Retinex 模型的方法通过某种先验或正则化将低光图像分解为反射分量和照明分量。估计的反射分量被视为增强结果。这种方法有一些局限性：1）将反射分量视为增强结果的理想假设并不总是成立，特别是考虑到各种照明属性，这可能导致不切实际的增强，例如细节丢失和颜色失真，2）噪声通常在Retinex 模型中被忽略，因此在增强的结果中保留或放大，3）找到有效的先验或正则化具有挑战性。不准确的先验或正则化可能会导致增强结果中的伪影和颜色偏差，以及 4) 由于其复杂的优化过程，运行时间相对较长。

深度学习

近年来，自第一个开创性工作LLNet[1]以来，基于深度学习的 LLIE 取得了令人瞩目的成功。与传统方法相比，基于深度学习的解决方案具有更好的准确性、鲁棒性和速度，因此近年来受到越来越多的关注。图 2 显示了基于深度学习的 LLIE 方法的一个简明里程碑。如图所示，自 2017 年以来，基于深度学习的解决方案的数量逐年增长。这些解决方案中使用的学习策略包括监督学习 (SL)、强化学习 (RL)、无监督学习 (UL)、零样本学习 (ZSL) 和半监督学习 (SSL)。请注意，我们仅在图 2 中报告了一些具有代表性的方法。实际上，从 2017 年到 2020 年，关于基于深度学习的方法的论文有 100 多篇，超过了常规方法的总数。此外，虽然一些通用的照片增强方法 [38]、[39]、[40]、[41]、[42]、[43]、[44]、[45]、[46] 可以将图像的亮度提高到在某种程度上，我们在本次调查中省略了它们，因为它们并非旨在处理各种低光照条件。我们专注于专为弱光图像和视频增强而开发的基于深度学习的解决方案。

尽管深度学习主导了 LLIE 的研究，但缺乏对基于深度学习的解决方案的深入和全面的调查。文献[47]、[48] 为两篇 LLIE综述文章。与主要回顾传统 LLIE 方法的 [47] 和从人类和机器视觉的角度探索几种传统和基于深度学习的 LLIE 方法的实验性能的 [48] 相比，我们的调查具有以下独特特征：1）我们的工作是第一个系统全面地回顾基于深度学习的 LLIE 的最新进展。我们在各个方面进行了深入的分析和讨论，涵盖学习策略、网络结构、损失函数、训练数据集、测试数据集、评估指标等。2）我们提出了一个包含由在不同的照明条件下使用不同的设备来评估现有方法的泛化性。因此，我们为关键的开放性问题、挑战和未来方向提供见解。此外，据我们所知，我们是第一个比较 LLIE 方法在不同现实世界场景中捕获的低光视频上性能的。3) 我们提供了一个在线平台，涵盖了许多流行的基于深度学习的 LLIE 方法，结果可以通过用户友好的 Web 界面生成。这个统一的平台解决了比较不同深度学习平台中实现的不同方法并需要不同硬件配置的问题。使用我们的平台，没有任何 GPU 的人可以在线评估任何输入图像的不同方法的结果。

我们希望我们的调查能够提供新的见解和启发，以促进对基于深度学习的 LLIE 的理解，促进对提出的未解决问题的研究，并加快该研究领域的发展。

2 DEEP LEARNING-BASED LLIE

2.1 Problem Definition

我们首先给出基于深度学习的 LLIE 问题的通用公式。对于宽高的低光图像，过程可以建模为：

其中是增强结果，表示具有可训练参数的网络。深度学习的目的是找到使误差最小的最优网络参数：

其中是 ground truth，损失函数驱动网络的优化。在网络训练过程中可以使用监督损失和无监督损失等各种损失函数。更多细节将在第 3 节中介绍。

2.2 Learning Strategies

根据不同的学习策略，我们将现有的 LLIE 方法分为监督学习、强化学习、无监督学习、零样本学习和半监督学习。图 3 给出了从不同角度进行的统计分析。在下文中，我们回顾了每种策略的一些代表性方法。

监督学习。对于基于监督学习的 LLIE 方法，它们可以进一步分为端到端方法、基于深度Retinex 的方法和现实数据驱动方法。

第一个基于深度学习的 LLIE 方法 LLNet[1] 采用堆叠稀疏去噪自动编码器 [49] 的变体同时对低光图像进行增亮和去噪。这项开创性的工作激发了 LLIE 中端到端网络的使用。吕等人。[3] 提出了一种端到端的多分支增强网络（MBLLEN）。MBLLEN通过特征提取模块、增强模块和融合模块提取有效的特征表示来提高 LLIE 的性能。同一作者 [15] 提出了其他三个子网络，包括Illumination-Net、Fusion-Net 和 Restoration-Net，以进一步提高性能。任等人。[12] 设计了一个更复杂的端到端网络，包括用于图像内容增强的编码器-解码器网络和用于图像边缘增强的循环神经网络。与 [12] 类似，Zhu 等人。[16] 提出了一种称为 EEMEFN的方法。EEMEFN包括两个阶段：多曝光融合和边缘增强。为 LLIE 提出了一种多曝光融合网络 TBEFN[20]。TBEFN在两个分支中估计一个传递函数，可以得到两个增强结果。最后，采用简单的平均方案来融合这两个图像，并通过细化单元进一步细化结果。此外，在 LLIE 中引入了金字塔网络(LPNet) [18]、残差网络 [19] 和拉普拉斯金字塔 [21](DSLR)。这些方法通过 LLIE 常用的端到端网络结构学习有效和高效地集成特征表示。最近，基于观察到噪声在不同频率层中表现出不同程度的对比度，Xu 等人。[50] 提出了一种基于频率的分解和增强网络。该网络在低频层通过噪声抑制恢复图像内容，同时在高频层推断细节。

与在端到端网络中直接学习增强结果相比，由于物理上可解释的Retinex 理论 [51]、[52]，基于深度Retinex 的方法在大多数情况下享有更好的增强性能。基于深度视网膜的方法通常通过专门的子网络分别增强 il 亮度分量和反射率分量。在 [4] 中提出了一个Retinex-Net。Retinex-Net 包括一个Decom-Net，它将输入图像拆分为与光无关的反射率和结构感知平滑照明，以及一个调整照明图以进行低光增强的Enhance-Net。为了减少计算负担，Li 等人。[5] 提出了一种用于弱光照图像增强的轻量级LightenNet，它仅由四层组成。LightenNet 将弱光照图像作为输入，然后估计其光照图。基于Retinex理论[51]、[52]，通过将光照图除以输入图像得到增强图像。为了准确估计光照图，Wang 等人。[53] 通过他们提出的DeepUPE 网络提取全局和局部特征以学习图像到照明的映射。张等人。[11] 分别开发了三个子网络，用于层分解、反射率恢复和光照调整，称为 KinD。此外，作者通过多尺度照明注意模块减轻了 KinD[11] 结果中留下的视觉缺陷。改进后的 KinD 称为 KinD++[54]。为了解决基于深度Retinex 的方法中忽略噪声的问题，Wang 等人。[10] 提出了一种渐进式Retinex 网络，其中 IM-Net估计光照，NM-Net 估计噪声水平。这两个子网络以渐进的机制工作，直到获得稳定的结果。范等人。[14] 集成语义分割和Retinex 模型，以进一步提高实际案例中的增强性能。核心思想是使用语义先验来指导照明分量和反射分量的增强。

尽管上述方法可以获得不错的性能，但由于使用了合成训练数据，它们在真实的低光照情况下表现出较差的泛化能力。为了解决这个问题，一些方法试图生成更真实的训练数据或捕获真实数据。蔡等人。[6]构建了一个多曝光图像数据集，其中不同曝光水平的低对比度图像有其对应的高质量参考图像。每个高质量的参考图像都是通过从不同方法增强的 13 个结果中主观选择最佳输出而获得的。此外，在构建的数据集上训练频率分解网络，并通过两阶段结构分别增强高频层和低频层。陈等人。[2] 收集一个真实的低光图像数据集 (SID) 并训练 U-Net[55] 以学习从低光原始数据到 sRGB 空间中相应的长曝光高质量参考图像的映射。此外，陈等人。[8] 将 SID 数据集扩展到低光视频 (DRV)。DRV 包含具有相应长时间曝光基本事实的静态视频。为了保证处理动态场景视频的泛化能力，提出了一种孪生网络。为了增强黑暗中的运动物体，Jiang 和 Zheng[9] 设计了一个同轴光学系统来捕获时间同步和空间对齐的低光和高光视频对(SMOID)。与 DRV 视频数据集 [8] 不同，SMOID 视频数据集包含动态场景。为了在 sRGB 空间中学习从原始低光视频到高光视频的映射，提出了一种基于 3DU-Net 的网络。考虑到以前的低光视频数据集的局限性，例如 DRV 数据集 [8] 仅包含统计视频和 SMOID 数据集 [9] 仅具有 179 个视频对，Triantafyllidou等人。[17] 提出了一种低光视频合成管道，称为 SIDGAN。SIDGAN可以通过具有中间域映射的半监督双CycleGAN 生成动态视频数据（RAW-to-RGB）。为了训练这个管道，从Vimeo-90K 数据集 [56] 中收集了真实世界的视频。低光原始视频数据和相应的长曝光图像是从 DRV 数据集 [8] 中采样的。利用合成的训练数据，这项工作采用与 [2] 相同的 U-Net 网络结构进行低光视频增强。

强化学习。在没有配对训练数据的情况下，Yu 等人。[22] 通过强化对抗学习来学习曝光照片，命名为 DeepExposure。具体地，首先根据曝光将输入图像分割成子图像。对于每个子图像，策略网络基于强化学习顺序学习局部曝光。奖励评估函数通过对抗学习来近似。最后，利用每次局部曝光对输入进行修饰，从而获得不同曝光下的多张修饰图像。最终的结果是通过融合这些图像来实现的。

无监督学习。在配对数据上训练深度模型可能会导致过度拟合和泛化能力有限。为了解决这个问题，在 [23] 中提出了一种名为EnligthenGAN 的无监督学习方法。EnlightenGAN 采用注意力引导的 U-Net[55] 作为生成器，并使用全局-局部鉴别器来确保增强的结果看起来像真实的正常光图像。除了全局和局部对抗性损失外，还提出了全局和局部自特征保持损失来保留增强前后的图像内容。这是稳定训练这种单路径生成对抗网络（GAN）结构的关键点

Zero-shot Learning。监督学习、强化学习和无监督学习方法要么泛化能力有限，要么训练不稳定。为了解决这些问题，提出了零样本学习来仅从测试图像中学习增强。注意，低层视觉任务中的零样本学习概念是用来强调该方法不需要配对或非配对的训练数据，这与它在高层视觉任务中的定义不同。张等人。[24] 提出了一种零样本学习方法，称为 ExCNet，用于背光图像恢复。首先使用一个网络来估计最适合输入背光图像的 S 曲线。一旦估计了 S 曲线，输入图像就会使用引导滤波器 [57] 分为基础层和细节层。然后通过估计的 S 曲线调整基础层。最后，Webercontrast [58] 用于融合细节层和调整后的基础层。为了训练 ExCNet，作者将损失函数表述为基于块的能量最小化问题。朱等人。[26] 提出了一个三分支 CNN，称为 RRDNet，用于恢复曝光不足的图像。RRDNet通过迭代最小化专门设计的损失函数将输入图像分解为照明、反射和噪声。为了驱动零样本学习，提出了结合视网膜重构损失、纹理增强损失和光照引导噪声估计损失的方法。与基于图像重建的方法 [1]、[3]、[4]、[11]、[12]、[21]、[54] 不同，在 [25] 中提出了一种深度曲线估计网络零 DCE ]。Zero-DCE 将光增强制定为图像特定曲线估计的任务，它将低光图像作为输入并产生高阶曲线作为其输出。这些曲线用于对输入的动态范围进行逐像素调整，以获得增强的图像。此外，还提出了一种加速和轻型版本，称为Zero-DCE++ [59]。这种基于曲线的方法在训练期间不需要任何配对或非配对数据。他们通过一组非参考损失函数实现零参考学习。此外，与需要大量计算资源的基于图像重建的方法不同，图像到曲线的映射只需要轻量级网络，从而实现快速的推理速度。半监督学习。为了结合监督学习和无监督学习的优势，近年来提出了半监督学习。杨等人。[27]提出了一种半监督深度递归带网络（DRBN）。DRBN首先在监督学习下恢复增强图像的线性波段表示，然后通过基于无监督对抗学习的可学习线性变换重新组合给定波段来获得改进的波段表示

观察图 3(a)，我们可以发现监督学习是基于深度学习的 LLIE 方法中的主流。比例达到77%。这是因为当 LOL[4]、SID [2]和各种低光/正常光图像合成方法等配对训练数据公开可用时，监督学习相对容易。然而，基于监督学习的方法面临一些挑战：1) 收集涵盖各种现实世界弱光条件的大规模配对数据集是困难的，2) 合成的弱光图像不能准确地表示现实世界的照度诸如空间变化的照明和不同级别的噪声等条件，以及 3) 在配对数据上训练深度模型可能会导致对具有不同照明属性的真实世界图像的过度拟合和有限泛化

因此，一些方法采用无监督学习、强化学习、半监督学习和零样本学习来绕过监督学习中的挑战。尽管这些方法实现了竞争性能，但它们仍然存在一些局限性：1）对于无监督学习/半监督学习方法，如何实现稳定的训练、避免颜色偏差以及建立跨域信息的关系对当前的方法提出了挑战 , 2) 对于强化学习方法，设计有效的奖励机制和实施高效稳定的训练是错综复杂的，以及 3) 对于零样本学习方法，非参考损失的设计在保色、去除伪影时非常重要，并且应该考虑梯度反向传播。

3 TECHNICAL REVIEW AND DISCUSSION

在本节中，我们首先总结表 1 中具有代表性的基于深度学习的 LLIE 方法，然后分析和讨论它们的技术特点。

表1：基于深度学习的代表性方法的基本特征总结，包括学习策略、网络结构、损失函数、训练数据集、测试数据集、评估指标、输入数据格式以及模型是否基于Retinex。“simulated”是指通过与合成训练数据相同的方法模拟测试数据。“self-selected”代表作者选择的真实世界图像。“#P”表示可训练参数的数量。“-”表示该项目不可用或未在论文中注明。

深度学习

3.1 Network Structure

现有模型中使用了多种网络结构和设计，从基本的 U-Net、金字塔网络、多级网络到频率分解网络。分析图3(b)可以看出，LLIE中主要采用U-Net和类U-Net网络。这是因为 U-Net 可以有效地集成多尺度特征，并同时使用低级和高级特征。这些特性对于实现令人满意的低光增强是必不可少的。

然而，在当前的 LLIE 网络结构中可能会忽略一些关键问题：

1）在经过几个卷积层后，由于其像素值较小，极低光图像的梯度在梯度反向传播过程中可能会消失，这会降低增强性能并影响网络训练的收敛性。

2)类 U-Net 的网络中使用的跳跃连接可能会在最终结果中引入噪声和冗余特征。应该仔细考虑如何有效滤除噪声并融合低级和高级特征。

3）虽然为 LLIE 提出了一些设计和组件，但大部分都是从相关的低级视觉任务中借用或修改的。在设计网络结构时应考虑低光数据的特性。

3.2 Combination of Deep Model and Retinex Theory

如图 3(c) 所示，几乎 1/3 的方法将深度网络的设计与Retinex 理论相结合，例如，设计不同的子网络来估计Retinex 模型的组件，并估计光照图来指导学习网络。尽管这种组合可以建立基于深度学习和基于模型的方法之间的联系，但它们各自的弱点可能会引入最终模型中：1）反射率是基于Retinex 的 LLIE 方法中使用的最终增强结果的理想假设仍然会影响最终结果，以及 2）尽管引入了Retinex 理论，但深度网络中过度拟合的风险仍然存在。因此，当研究人员将深度学习与Retinex 理论相结合时，应该仔细考虑如何取其精华，去其糟粕。

3.3 Data Format

如图 3(d) 所示，原始数据格式Raw在大多数方法中占主导地位。尽管原始数据仅限于特定传感器，例如基于拜耳模式的传感器，但数据涵盖更广的色域和更高的动态范围。因此，在原始数据上训练的深度模型通常可以恢复清晰的细节和高对比度，获得鲜艳的色彩，减少噪声和伪影的影响，并提高极低光图像的亮度。尽管如此，RGB 格式也用于某些方法，因为它通常是智能手机相机、Go-Pro 相机和无人机相机产生的最终图像形式。在未来的研究中，从不同模式的原始数据到RGB格式的平滑转换将有可能结合RGB数据的便利性和LLIE对原始数据的高质量增强的优势。

3.4 Loss Function

在图3（e）中，LLIE模型中常用的损失函数包括重建损失（L1、L2、SSIM）、感知损失和平滑损失。此外，根据不同的需求和策略，还采用了颜色损失、曝光损失和对抗损失。我们将代表性损失函数详述如下。

重建损失(ReconstructionLoss)。常用的 L1、L2 和 SSIM 损失可以表示为：

其中和分别代表ground truth和增强结果，、和分别是输入图像的高度、宽度和通道。均值和方差分别由和表示。根据 SSIM 损失 [60] 中的默认值，将常数和设置为 0.02 和 0.03。不同的重建损失有其优点和缺点。损失倾向于惩罚较大的错误，但可以容忍小错误。损失可以很好地保留颜色和亮度，因为无论局部结构如何，都会对误差进行同等加权。损失很好地保留了结构和纹理。详细分析见[61]。

感知损失。[62]提出了感知损失来限制与特征空间中的基本事实相似的结果。损失提高了结果的视觉质量。它被定义为增强结果的特征表示与对应的ground-truth的特征表示之间的欧几里得距离。特征表示通常是从在ImageNet 数据集 [64] 上预训练的 VGG 网络 [63] 中提取的。感知损失可以表示为：

其中、和分别是特征图的高度、宽度和通道数。函数表示从 VGG 网络的第个卷积层（在 ReLU 激活之后）提取的特征表示。

平滑度损失。为了去除增强结果中的噪声或保留相邻像素的关系，通常使用平滑损失（TV loss）来约束增强结果或估计的光照图，可以表示为：

其中和分别是水平和垂直梯度操作。

对抗性损失

。为了鼓励增强的结果与参考图像区分开来，对抗性学习解决了以下优化问题：其中生成器试图生成“假”图像来欺骗鉴别器。鉴别器试图将“假”图像与参考图像区分开来。输入是从源流形中采样的，而是从目标流形中采样的任意参考图像。为了优化生成器，应该最小化这个损失函数：其中输出增强的结果。为了优化鉴别器，这个损失函数被最小化：

曝光损失。作为基于的方法中的关键损失函数之一，曝光损失衡量了在没有配对或未配对图像作为参考图像的情况下增强结果的曝光水平，可以表示为：

其中M是固定大小（默认为16×16）的非重叠区域的数量，Y是增强结果中区域的平均强度值。

LLIE 网络中常用的损失函数，如 L1、L2、SSIM、感知损失，也用于图像重建网络中，用于图像超分辨率 [65]、图像去噪 [66]、图像去训练(Imagedetraining) [67]、[68 ]和图像去模糊[69]。与这些通用损失不同，为 LLIE 专门设计的曝光损失激发了非参考损失的设计。非参考损失不依赖参考图像，从而使模型具有更好的泛化能力。在设计损失函数时考虑图像特征是一项正在进行的研究。

3.5 Training Datasets

图 3(f) 报告了使用各种配对训练数据集来训练低光增强网络。这些数据集包括真实世界捕获的数据集和合成数据集。我们将它们列在表 2 中，并详细介绍如下。

Gamma 校正模拟

。由于其非线性和简单性，伽玛校正用于调整视频或静止图像系统中的亮度或三色值。它由幂律表达式定义。

其中输入和输出通常在 [0,1] 范围内。通常情况下，常数设置为 1。功率控制输出的亮度。直观地说，输入在 <1时变亮, >1时变暗。输入可以是图像的三个 RGB 通道，也可以是与亮度相关的通道，例如 CIELab颜色空间中的通道和颜色空间中的通道。使用校正调整亮度相关通道后，颜色空间中的相应通道按等比例调整，以避免产生伪影和颜色偏差。

为了模拟在真实世界的低光照场景中拍摄的图像，将高斯噪声、泊松噪声或真实噪声添加到校正图像中。使用校正合成的低光图像可以表示为：

其中代表噪声模型，代表值的校正函数，是正常光和高质量图像或亮度相关通道。虽然该函数通过改变值来产生不同光照水平的微光图像，但由于非线性调整，它往往会在合成的微光图像中引入伪影和颜色偏差。

深度学习

随机照明模拟

。根据Retinex 模型，图像可以分解为反射分量和光照分量。基于图像内容与光照分量无关且光照分量中的局部区域具有相同强度的假设，可以通过下式获得弱光图像。其中是范围内的随机光照值。可以将噪声添加到合成图像中。这种线性函数避免了伪影，但强假设要求合成仅在局部区域具有相同亮度的图像块上运行。由于上下文信息的疏忽，在此类图像块上训练的深度模型可能会导致次优性能。

LOL。LOL[4] 是第一个在真实场景中拍摄的配对低光/正常光图像数据集。通过改变曝光时间和 ISO 来收集低光图像。LOL 包含 500 对以 RGB 格式保存的大小为400×600 的低光/正常光图像。

SCIE。SCIE 是低对比度和良好对比度图像对的多曝光图像数据集。它包括 589 个室内和室外场景的多重曝光序列。每个序列有3到18张不同曝光级别的低对比度图像，因此总共包含4,413张多重曝光图像。589张高质量的参考图像是从13种具有代表性的增强算法的结果中选择得到的。即许多多重曝光图像具有相同的高对比度参考图像。图像分辨率介于3,000×2,000 和6,000×4,000 之间。SCIE 中的图像以 RGB 格式保存。

MIT-Adobe FiveK。MIT-Adobe FiveK [70] 被收集用于全局色调调整，但已用于 LLIE。这是因为输入图像具有低光和低对比度。MIT-Adobe FiveK 包含 5,000 张图像，每张图像都由 5 位训练有素的摄影师进行美化，以呈现视觉上令人愉悦的效果，类似于明信片。因此，每个输入都有五个修饰结果。通常，专家C的结果在训练阶段被用作地面ground-truth图像。图片都是Raw原始格式。要训练能够处理 RGB 格式图像的网络，需要使用 AdobeLightroom 对图像进行预处理，并按照此过程将其保存为 RGB 格式。图像通常被调整为长边为500像素的大小。

SID。SID[2] 包含 5,094 张原始短曝光图像，每张图像都有对应的长曝光参考图像。不同的长曝光参考图像的数量为424。换句话说，多个短曝光图像对应于相同的长曝光参考图像。这些图像是在室内和室外场景中使用两台相机拍摄的：索尼 α7S II和富士 X-T2。因此，图像具有不同的传感器模式（索尼相机的拜耳传感器和富士相机的 APS-CX-Trans 传感器）。索尼的分辨率为4,240×2,832，富士的分辨率为6,000×4,000。通常，长曝光图像由 libraw（一个原始图像处理库）处理并保存在 sRGB 颜色空间中，并随机裁剪512×512 块进行训练。

VE-LOL。VE-LOL[48] 包含两个子集：用于训练和评估 LLIE 方法的配对 VE-LOLL 和用于评估 LLIE 方法对人脸检测效果的未配对VE-LOL-H。具体来说，VE-LOLL 包括 2,500 个配对图像。其中，1000双是合成的，1500双是真实的。VE-LOL-H 包括 10,940张未配对的图像，其中人脸是用边界框手动注释的。

DRV。DRV[8] 包含 202 个静态原始视频，每个视频都有一个对应的长曝光ground-truth。每个视频在连续拍摄模式下以每秒大约 16 到 18 帧的速度拍摄，最多可拍摄 110 帧。这些图像由索尼 RX100VI 相机在室内和室外场景中拍摄，因此全部采用 BayerRaw 格式。分辨率为3,672×5,496。

SMOID。SMOID[9] 包含 179 对由同轴光学系统拍摄的视频，每对有 200 帧。因此，SMOID 包括 35,800个极低光BayerRaw 图像及其相应的光照良好的 RGB 计数器。SMOID 中的视频由不同光照条件下的移动车辆和行人组成。

一些问题对上述配对训练数据集提出了挑战：1）由于合成数据和真实数据之间的差距，在合成数据上训练的深度模型在处理真实世界的图像和视频时可能会引入伪影和颜色偏差，2）数据的规模和多样性，真实的训练数据不能令人满意，因此一些方法会结合合成数据来增加训练数据。这可能会导致次优增强，并且 3) 输入图像和相应的 ground-truth可能会由于运动、硬件和环境的影响而存在错位。这将影响使用逐像素损失函数训练的深度网络的性能。

3.6 Testing Datasets

除了成对数据集[2]、[4]、[6]、[8]、[9]、[48]、[70]中的测试子集外，还有一些从相关工作中收集或常见的测试数据用于实验比较。它们是从 LIME[32]、NPE[30]、MEF[71]、DICM[72] 和 VV2 收集的。此外，一些数据集，如黑暗中的人脸检测[73]和低光图像中的检测和识别[74]被用来测试LLIE对高级视觉任务的影响。我们总结了表 3 中常用的测试数据集，并介绍了具有代表性的测试数据集如下。

BBD-100K。

BBD-100K [75] 是最大的驾驶视频数据集，包含 10,000个视频，涵盖一天中许多不同时间、天气条件和驾驶场景的 1,100 小时驾驶体验，以及 10 个任务注释。在 BBD-100K夜间拍摄的视频用于验证 LLIE 对高级视觉任务的影响以及在真实场景中的增强性能。

ExDARK。

ExDARK[74] 数据集是为低光图像中的对象检测和识别而构建的。 ExDARK数据集包含 7,363 张从极低光环境到暮光环境的低光图像，其中包含 12 个对象类，并使用图像类标签和局部对象边界框进行注释。黑脸。 DARKFACE [73] 数据集包含 6,000 张夜间室外场景中拍摄的低光图像，每张图像都标有人脸边界框。从图 3(g) 中，我们可以观察到人们更喜欢在实验中使用自己收集的测试数据。主要原因有三点：1）除了成对数据集的测试划分，没有公认的评估基准，2）常用的测试集存在规模小（部分测试集仅包含10张图像）等缺点 )、重复的内容和光照特性，以及未知的实验设置，以及 3) 一些常用的测试数据最初不是为了评估 LLIE 而收集的。一般来说，当前的测试数据集可能会导致偏差和不公平的比较。

3.7 Evaluation Metrics

除了基于人类感知的主观评估外，图像质量评估 (IQA) 指标，包括完全参考和非参考 IQA 指标，能够客观地评估图像质量。此外，用户研究、可训练参数的数量、FLOP、运行时和基于应用程序的评估也反映了 LLIE 模型的性能，如图 3(h) 所示。我们将详细介绍它们如下。

PSNR 和 MSE

。 PSNR 和 MSE 是低级视觉任务中广泛使用的 IQA 指标。它们总是非负的，更接近无限（PSNR）和零（MSE）的值更好。然而，像素级 PSNR 和 MSE 可能无法准确地指示图像质量的视觉感知，因为它们忽略了相邻像素的关系。

MAE

。 MAE 表示平均绝对误差，作为成对观测值之间误差的度量。 MAE值越小，相似度越高。

SSIM

。 SSIM 用于衡量两幅图像之间的相似度。它是一种基于感知的模型，将图像退化视为结构信息的感知变化。值为1只有在两组相同数据的情况下才能达到，表明结构相似。

LOE

。 LOE 表示反映增强图像自然度的亮度顺序误差。对于 LOE，LOE 值越小，亮度顺序保持得越好。应用。除了提高视觉质量外，图像增强的目的之一是服务于高级视觉任务。因此，LLIE 对高级视觉应用程序的影响通常被检查以验证不同方法的性能。目前在 LLIE 中使用的评估方法需要在几个方面进行改进：1）虽然 PSNR、MSE、MAE 和 SSIM 是经典和流行的指标，但它们距离捕捉人类的真实视觉感知还很远，2）一些指标最初不是为低光图像设计的。它们用于评估图像信息和对比度的保真度。使用这些指标可能会反映图像质量，但它们与弱光增强的真正目的相去甚远，3）缺乏专门为弱光图像设计的指标，除了LOE指标。此外，没有用于评估低光视频增强的指标，4) 期望能有一个可以平衡人类视觉和机器感知的指标。

4 BENCHMARKING AND EMPIRICAL ANALYSIS

本节提供实证分析，并强调基于深度学习的 LLIE 中的一些关键挑战。为了便于分析，我们提出了一个大规模的低光图像和视频数据集来检查不同基于深度学习的解决方案的性能。此外，我们开发了第一个在线平台，可以通过用户友好的网络界面生成基于深度学习的 LLIE 模型的结果。在本节中，我们对几个基准和我们提出的数据集进行了广泛的评估。在实验中，我们比较了13 种具有代表性的方法，包括 7 种基于监督学习的方法（LLNet[1]、LightenNet[5]、Retinex-Net[4]、MBLLEN[3]、KinD[11]、KinD++[54]、 TBEFN[20]、DSLR[21]）、一种基于无监督学习的方法（EnlightenGAN[23]）、一种基于半监督学习的方法（DRBN[27]）和三种基于零样本学习的方法（ ExCNet[24]、零 DCE[25]、RRDNet[26]）。我们使用公开可用的代码来生成结果以进行公平比较。

4.1 A New Low-Light Image and Video Dataset

我们提出了一个名为LoLi-Phone 的大规模低光图像和视频数据集，以全面彻底地验证 LLIE 方法的性能。LoLi-Phone 是同类中最大、最具挑战性的真实世界测试数据集。特别是，该数据集包含由 18 种不同手机相机拍摄的 120 个视频（55,148 张图像），包括 iPhone6s、iPhone7、iPhone7Plus、iPhone8Plus、iPhone11、iPhone11 Pro、iPhoneXS、iPhoneXR、iPhoneSE、小米小米 9、小米 Mix 3、Pixel 3、Pixel 4、OppoR17、VivoNex、LG M322、一加 5T、华为 Mate20 Pro 在各种光照条件下（例如弱光、曝光不足、月光、暮光、黑暗、极暗）、背光、非均匀光和彩色光。）在室内和室外场景中。表 4 提供了LoLi-Phone 数据集的摘要。我们在图 4 中展示了 LoLi 电话数据集的几个示例。我们将发布建议的LoLi-Phone 数据集。

深度学习

Fig. 4: Several images sampled from the proposedLoLiPhone dataset. The images and videos are taken by different devices underdiverse lighting conditions and scenes.

这个具有挑战性的数据集是在真实场景中收集的，包含各种低光图像和视频。因此，它适用于评估不同低光图像和视频增强模型的泛化能力。值得注意的是，该数据集可用作基于无监督学习的方法的训练数据集和合成方法的参考数据集，以生成逼真的低光图像和视频。

4.2 Online Evaluation Platform

不同的深度模型可以在不同的深度学习平台上实现，例如 Caffe、Theano、TensorFlow和PyTorch。因此，不同的算法需要不同的配置、GPU 版本和硬件规格。这样的要求让很多研究人员望而却步，尤其是对于刚接触这个领域甚至可能没有 GPU 资源的初学者。为了解决这些问题，我们开发了一个名为 LoLiPlatform 的 LLIE 在线平台。该平台可在http://mc.nankai.edu. cn/ll/ 。

到目前为止，LoLi 平台涵盖了 13 种流行的基于深度学习的 LLIE 方法，包括 LLNet[1]、LightenNet[5]、Retinex-Net[4]、EnlightenGAN[23]、MBLLEN[3]、KinD [11]、KinD++[54]、TBEFN[20]、DSLR[21]、DRBN[27]、ExCNet[24]、Zero-DCE[25] 和 RRDNet[26]，通过一个用户友好的网络界面，可以将任何输入的结果输出。我们会定期在这个平台上提供新的方法。我们希望这个 LoLi 平台能够通过为用户提供灵活的界面来运行现有的基于深度学习的 LLIE 方法并开发他们自己的新 LLIE 方法，从而为不断发展的研究社区服务。

4.3 Benchmarking Results

为了定性和定量地评估不同的方法，除了提出的LoLi-Phone 数据集外，我们还采用了常用的 LOL[4] 和MIT-Adobe FiveK [70] 数据集。更多视觉结果可以在补充材料中找到。此外，不同手机摄像头拍摄的真实微光视频对比结果可以在YouTube上找到

https://www.youtube.com/watch?v=Elo9TkrG5Oo&t=6s

.具体来说，我们从LoLi-Phone 数据集的每个视频中平均选择 5 张图像，形成一个包含 600 张图像的图像测试数据集（记为LoLi-Phone imgT）。此外，我们从每个手机品牌的LoLi-Phone 数据集的视频中随机选择一个视频，形成一个包含 18 个视频的视频测试数据集（记为LoLi-Phone-vidT）。我们将LoLi-Phone-imgT 和 LoLi-Phone-vidT 中帧的分辨率减半，因为一些基于深度学习的方法无法处理测试图像和视频的全分辨率。对于 LOL 数据集，我们采用包含 15 个在真实场景中捕获的低光图像的原始测试集进行测试，记为LOL-test。对于MIT-Adobe FiveK 数据集，我们按照 [40] 中的处理将图像解码为 PNG 格式，并使用Lightroom 将它们调整为具有 512 像素的长边。我们采用与[40]相同的测试数据集，麻省理工学院 Adobe FiveK-test，包括 500 张图像，其中专家 C 的修饰结果作为相应的基本事实。

定性比较

(QualitativeComparison)。我们首先在图 5 和图 6 中展示了不同方法对从LOL-test 和MIT-Adobe FiveK-test 数据集采样的图像的结果。如图 5 所示，所有方法都提高了输入图像的亮度和对比度。然而，当将结果与基本事实进行比较时，它们都没有成功地恢复输入图像的准确颜色。特别是，LLNet[1] 会产生模糊结果。LightenNet [5] 和 RRDNet[26] 产生曝光不足的结果，而 MBLLEN[3] 和 ExCNet[24] 往往会过度曝光图像。 KinD[11]、KinD++[54]、TBEFN[20]、DSLR[21]、EnlightenGAN[23] 和 DRBN[27] 引入了明显的伪影。在图 6 中，LLNet [5]、KinD++ [54]、TBEFN [20] 和 RRDNet [26] 产生了过度曝光的结果。 Retinex-Net [4]、KinD++ [54] 和 RRDNet [26] 在结果中产生伪影和模糊。我们发现 MIT Adobe FiveK 数据集的基本事实仍然包含一些暗区。这是因为该数据集最初是为全局图像修饰而设计的，其中恢复低光区域不是该任务的主要优先事项。

深度学习

我们还观察到 LOL 数据集和MIT-Adobe FiveK 数据集中的输入图像相对没有噪声，这与真实的低光场景不同。尽管一些 LLIE 方法 [18]、[21]、[53] 将 MITAdobe FiveK 数据集作为训练或测试数据集，但我们认为该数据集不适合 LLIE 的任务，因为它的不匹配/不令人满意的基础 LLIE的真相。为了检查不同方法的泛化能力，我们对从我们的LoLi-Phone-imgT 数据集中采样的图像进行比较。不同方法的视觉结果如图 7 和图 8 所示。如图 7 所示，所有方法都不能有效地提高输入低光图像的亮度和去除噪声。此外，Retinex-Net[4]、MBLLEN[3] 和 DRBN[27] 会产生明显的伪影。在图 8 中，所有方法都增强了该输入图像的亮度。然而，只有 MBLLEN[3] 和 RRDNet[26] 在没有颜色偏差、伪影和曝光过度/不足的情况下获得视觉上令人愉悦的增强效果。值得注意的是，对于有光源的区域，没有一种方法可以在不放大这些区域周围的噪声的情况下使图像变亮。将光源考虑到 LLIE 将是一个有趣的探索方向。结果表明增强LoLi-Phone-imgT 数据集图像的难度。

定量比较

(QuantitativeComparison)。对于具有基本事实的测试集，即LOL-test 和MIT-Adobe FiveK-test，我们采用 MSE、PSNR、SSIM[60] 和 LPIPS[76] 指标来定量比较不同的方法。 LPIPS[76] 是一种基于深度学习的图像质量评估指标，它通过深度视觉表示来测量结果与其对应的基本事实之间的感知相似性。对于 LPIPS，我们采用基于AlexNet 的模型来计算感知相似度。较低的 LPIPS 值表明在感知相似性方面更接近相应的基本事实的结果。在表 5 中，我们展示了定量结果。

深度学习

如表 5 所示，在LOL-test 和MIT-Adobe FiveK-test 上，基于监督学习的方法的定量分数优于基于无监督学习、基于半监督学习和基于零样本学习的方法数据集。其中，LLNet[1] 在LOL-test 数据集上获得了最好的 MSE 和 PSNR 值；但是，它在MIT-Adobe FiveK-test 数据集上的性能下降。这可能是由于 LLNet [1] 对 LOL 数据集的偏见，因为它是使用 LOL 训练数据集进行训练的。对于 LOL 测试数据集，TBEFN[20] 获得最高的 SSIM 值，而 KinD[11] 获得最低的 LPIPS 值。尽管有些方法是在 LOL 训练数据集上训练的，但在 LOL 测试数据集上的这四个评估指标中没有赢家。对于MIT-Adobe FiveK-test 数据集，MBLLEN [3] 在四个评估指标下优于所有比较方法，尽管在合成训练数据上进行了训练。尽管如此，MBLLEN[3] 仍然无法在两个测试数据集上获得最佳性能。对于LoLi-Phone-imgT 测试集，我们使用非参考图像质量评估指标，即 NIQE [77]、感知指数 (PI)[77]、[78]、[79]、LOE[30] 和 SPAQ[80]定量比较不同的方法。在 LOE 方面，LOE 值越小，亮度顺序保持得越好。对于NIQE，NIQE值越小，视觉质量越好。较低的 PI 值表示更好的感知质量。 SPAQ 是为智能手机摄影的感知质量评估而设计的。较大的 SPAQ 值表明智能手机摄影的感知质量更好。定量结果见表 6。观察表 6，我们可以发现Retinex-Net [4]、KinD++[54] 和EnlightenGAN [23] 的性能相对优于其他方法。 Retinex-Net [4] 获得了最好的 PI 和 SPAQ 分数。这些分数表明Retinex-Net [4] 增强了结果的良好感知质量。然而，从图 7(d) 和图 8(d) 来看，Retinex-Net[4] 的结果明显受到伪影和颜色偏差的影响。因此，我们认为非参考 PI 和 SPAQ 指标可能不适合低光图像的感知质量评估。此外，KinD++[54] 的 NIQE 得分最低，而原始输入的 LOE 得分最低。对于事实上的标准 LOE 指标，我们质疑亮度顺序是否可以有效地反映增强性能。总体而言，非参考 IQA 指标在评估增强的低光图像质量时存在偏差。

深度学习

为了准备LoLi-vidT 测试集中的视频，我们首先丢弃连续帧中没有明显物体的视频。总共选择了10个视频。对于每个视频，我们选择一个出现在所有帧中的对象。然后，我们使用跟踪器 [81] 跟踪输入视频的连续帧中的对象，并确保相同的对象出现在边界框中。我们丢弃了具有不准确对象跟踪的帧。收集每一帧中边界框的坐标。我们使用这些坐标来裁剪通过不同方法增强的结果中的相应区域，并计算连续帧中对象的平均亮度方差 (ALV) 分数：其中是视频的帧数，表示第帧边界框区域的平均亮度值，表示视频中所有边界框区域的平均亮度值。较低的 ALV 值表明增强视频的时间相干性更好。 LoLividT测试集的10个视频平均的不同方法的ALV值如表7所示。每个视频的不同方法的ALV值可以在补充材料中找到。此外，我们按照[9]在补充材料中绘制它们的亮度曲线。如表 7 所示，TBEFN[20] 在 ALV 值方面获得了最佳的时间相干性，而 LLNet[1] 和EnlightenGAN [23] 分别排名第二和第三。相比之下，作为表现最差的 ExCNet [24] 的 ALV 值达到了1375.29。这是因为基于零参考学习的 ExCNet[24] 的性能对于连续帧的增强是不稳定的。换句话说，ExCNet[24] 可以有效地提高某些帧的亮度，而在其他帧上效果不佳。

4.4 Computational Complexity

在表 8 中，我们比较了不同方法的计算复杂度，包括运行时、可训练参数和使用 NVIDA1080Ti GPU 对 32 张大小为1200×900×3 的图像进行平均的 FLOP。为了公平比较，我们省略了LightenNet [5]，因为只有其代码的 CPU 版本是公开可用的。此外，我们没有报告 ExCNet[24] 和 RRDNet[26] 的 FLOP，因为数量取决于输入图像（不同的输入需要不同的迭代次数）。如表 8 所示，Zero-DCE[25] 的运行时间最短，因为它仅通过轻量级网络估计几个曲线参数。因此，它的可训练参数和 FLOP 数量要少得多。此外，LightenNet[5] 的可训练参数和 FLOP 的数量是比较方法中最少的。这是因为LightenNet [5] 通过一个由四个卷积层组成的微型网络来估计输入图像的光照图。相比之下，LLNet[1] 和 KinD++[54] 的 FLOPs 非常大，分别达到4124.177G 和12238.026G。由于耗时的优化过程，基于 SSL 的 ExCNet[24] 和 RRDNet[26] 的运行时间很长。

4.5 Application-Based Evaluation

我们研究了低光图像增强方法在黑暗中人脸检测的性能。按照 [25] 中提出的设置，我们使用 DARKFACE 数据集 [73]，该数据集由在黑暗中拍摄的人脸图像组成。由于测试集的边界框不是公开可用的，我们对从训练和验证集中随机采样的 500 张图像进行评估。在 WIDERFACE 数据集 [83] 上训练的双镜头人脸检测器 (DSFD)[82] 被用作人脸检测器。我们将不同 LLIE 方法的结果提供给 DSFD[82]，并在图 9 中描绘了 0.5IoU 阈值下的精度 - 召回 (P-R) 曲线。此外，我们使用评估比较了不同 IoU 阈值下的平均精度 (AP) 表 9 中 DARKFACE 数据集 [73] 中提供的工具 3。如图 9 所示，所有基于深度学习的解决方案都提高了黑暗中人脸检测的性能，表明基于深度学习的 LLIE 解决方案在黑暗中人脸检测的有效性。如表 9 所示，不同 IoU 阈值下表现最佳者的 AP 得分范围为 0.268 到 0.013，不同 IoU 阈值下的输入 AP 得分非常低。结果表明仍有改进的余地。值得注意的是，Retinex-Net[4]、Zero-DCE[25] 和 TBEFN[20] 在黑暗中的人脸检测方面取得了相对稳健的性能。我们在图 10 中展示了不同方法的视觉结果。尽管Retinex-Net [4] 在 AP 分数上的表现优于其他方法，但其视觉结果包含明显的伪影和不自然的纹理。一般来说，零 DCE[25] 在 AP 分数和黑暗中人脸检测的感知质量之间取得了很好的平衡。

深度学习

4.6 Discussion

从实验结果中，我们获得了一些有趣的观察和见解：

根据测试数据集和评估指标，不同方法的性能存在显着差异。就常用测试数据集的全参考 IQA 指标而言，MBLLEN[3]、KinD++[54] 和 DSLR[21] 通常优于其他比较方法。对于手机拍摄的真实世界低光图像，基于监督学习的Retinex-Net [4] 和 KinD++ [54] 在非参考 IQA 指标中获得了更好的分数。对于手机拍摄的真实世界低光视频，TBEFN[20] 更好地保留了时间相干性。在计算效率方面，LightenNet[5] 和Zero-DCE [25] 表现突出。从黑暗中的人脸检测方面来看，TBEFN[20]、Retinex-Net[4]和Zero-DCE[25]排名前三。没有方法总是赢。总体而言，在大多数情况下，Retinex-Net[4]、[20]、Zero-DCE[25] 和 DSLR[21] 是更好的选择。

提出的LoLi-Phone 数据集的低光图像和视频在大多数方法中都失败了。现有方法的泛化能力需要进一步提高。值得注意的是，仅使用平均亮度方差来评估低光视频增强的不同方法的性能是不够的。更有效和更全面的评估指标将指导弱光视频增强技术的发展走向正确的轨道。

关于学习策略，监督学习在大多数情况下取得了更好的性能，但需要大量的计算资源和配对的训练数据。相比之下，零样本学习在实际应用中更具吸引力，因为它不需要配对或非配对的训练数据。因此，基于零样本学习的方法具有更好的泛化能力。然而，基于零样本学习的方法的定量性能不如其他方法。

视觉结果和定量 IQA 分数之间存在差距。换句话说，良好的视觉外观并不总能产生良好的 IQA 分数。人类感知与IQA分数之间的关系值得更多研究。追求更好的视觉感知或定量分数取决于具体的应用。例如，为了向观察者展示结果，应该更多地关注视觉感知。相比之下，当 LLIE 方法应用于黑暗中的人脸检测时，准确性比视觉感知更重要。因此，在比较不同方法时，应进行更全面和彻底的比较。

基于深度学习的 LLIE 方法有利于在黑暗中进行人脸检测。这些结果进一步支持了增强低光图像和视频的重要性。然而，与正常光照图像中人脸检测的高精度相比，尽管使用了LLIE方法，但在黑暗中人脸检测的准确率却极低。

5 FUTURE RESEARCH DIRECTIONS

低光图像增强是一个具有挑战性的研究课题。从第 4 节中介绍的实验可以看出，仍有改进的余地。我们建议潜在的未来研究方向如下。

有效的学习策略

。如前所述，当前的 LLIE 模型主要采用监督学习，需要大量配对训练数据，并且可能在特定数据集上过拟合。尽管一些研究人员试图将无监督学习（例如对抗性学习）引入 LLIE，但 LLIE 与这些学习策略之间的内在关系尚不清楚，它们在 LLIE 中的有效性需要进一步改进。零样本学习已在真实场景中显示出强大的性能，同时不需要配对训练数据。独特的优势表明零样本学习是一个潜在的研究方向，特别是在零参考损失、深度先验和优化策略的制定方面。

专门的网络结构

。网络结构可以显着影响增强性能。如前7所述，大多数 LLIE 深度模型采用 U-Net 或类似 U-Net 的结构。尽管它们在某些情况下取得了可喜的性能，但仍然缺乏研究这种编码器-解码器网络结构是否最适合 LLIE 任务。由于参数空间大，一些网络结构需要高内存占用和长推理时间。这样的网络结构对于实际应用来说是不可接受的。因此，考虑到光照不均匀、像素值小、噪声抑制和颜色恒定等弱光图像的特点，研究一种更有效的 LLIE 网络结构是值得的。人们还可以通过考虑低光图像的局部相似性或考虑更有效的操作（例如深度可分离卷积层[84]和自校准卷积[85]）来设计更有效的网络结构。可以考虑神经架构搜索（NAS）技术[86]、[87]以获得更有效和高效的LLIE网络结构。将变压器架构 [88]、[89] 改编为 LLIE 可能是一个潜在且有趣的研究方向。

损失函数

。损失函数约束输入图像和ground-truth之间的关系，并推动深度网络的优化。在 LLIE 中，常用的损失函数是从相关的视觉任务中借用的。没有专门的损失函数来指导弱光视频增强网络的优化。因此，需要设计更适合 LLIE 的损失函数。此外，最近的研究揭示了使用深度神经网络来近似人类对图像质量的视觉感知的可能性 [90]、[91]。这些思想和基础理论可用于指导弱光增强网络的适当损失函数的设计。

真实的训练数据

。尽管 LLIE 有多个训练数据集，但它们的真实性、规模和多样性落后于真正的弱光条件。因此，如第 4 节所示，当前的 LLIE 深度模型在遇到在现实世界场景中捕获的低光图像时无法达到令人满意的性能。需要更多的努力来研究大规模和多样化的现实世界配对 LLIE 训练数据集的集合或生成更真实的合成数据。

标准测试数据

。目前，还没有公认的 LLIE 评估基准。研究人员更喜欢选择自己的测试数据，这些数据可能会偏向于他们提出的方法。尽管一些研究人员留下了一些配对数据作为测试数据，但训练和测试分区的划分在文献中大多是临时的。因此，在不同方法之间进行公平比较通常是费力的，如果不是不可能的话。此外，一些测试数据要么易于处理，要么最初不是为弱光增强而收集的。需要有一个标准的低光图像和视频测试数据集，其中包括大量具有相应groundtruth的测试样本，涵盖多种场景和具有挑战性的光照条件。

特定于任务的评估指标

。 LLIE中常用的评价指标可以在一定程度上反映图像质量。然而，如何衡量 LLIE 方法增强结果的好坏仍然挑战当前的 IQA 指标，特别是对于非参考测量。此外，当前的 IQA 指标要么侧重于人类视觉感知，例如主观质量，要么强调机器感知，例如对高级视觉任务的影响。需要一种同时考虑人类感知和机器感知的评估指标。因此，预计该研究方向将开展更多工作，努力为 LLIE 设计更准确和特定任务的评估指标。

强大的泛化能力

。观察真实世界测试数据的实验结果，大多数方法由于泛化能力有限而失败。泛化能力差是由合成训练数据、小规模训练数据、无效的网络结构、不切实际的假设和不准确的先验等因素造成的。探索提高基于深度学习的 LLIE 模型泛化能力的方法非常重要。

低光视频增强的扩展

。与视频去模糊 [92]、视频去噪 [93] 和视频超分辨率 [94] 等其他低级视觉任务中视频增强的快速发展不同，低光视频增强受到的关注较少。将现有的LLIE 方法直接应用于视频通常会导致不满意的结果和闪烁的伪影。需要更多的努力来有效地消除视觉闪烁，利用相邻帧之间的时间信息，并加快增强速度。

整合语义信息

。语义信息对于弱光增强至关重要。它指导网络在增强过程中区分不同的区域。没有访问语义先验的网络很容易偏离区域的原始颜色，例如，在增强后将黑色头发变成灰色。因此，将语义先验整合到 LLIE 模型中是一个很有前景的研究方向。在图像超分辨率 [95]、[96] 和人脸恢复 [97] 上也进行了类似的工作。

审核编辑黄宇

打开APP阅读更多精彩内容