NVIDIA一种先进的深度学习方法可用于对图像进行编辑

NVIDIA英伟达企业解决方案 2018-05-09 4444

描述

NVIDIA研究团队研发出了一种先进的深度学习方法，可用于对图像进行编辑，或对有空白或像素缺失的受损图像进行重建。

应用该方法，研究人员能够通过先清除内容再填充所产生的空白这样的操作，对图像进行编辑。这个“图像修复”的过程，可灵活应用于图片编辑软件中，用以移除不需要的内容，同时用计算机生成的逼真图像进行填充。

“我们的模型能够很好地处理任何形状、大小、位置、或与图像边界的任意距离的空白，之前的深度学习方法主要集中于图像中心的矩形区域，且通常依赖成本颇高的后期处理，”NVIDIA研究人员在其研究报告中指出。“此外，我们的模型能够更好地处理更大的空白区域。”

为准备训练其神经网络，团队首先生成了55116个任意形状和大小的随机条纹和空白。他们还生成了近25000个条纹和空白用于测试。根据其相对于输入图像的大小，这些均被进一步分为六类，以期提高图像重建的准确性。

生成的用于训练的蒙版示例

使用NVIDIA Tesla V100 GPU和cuDNN加速的PyTorch深度学习框架，团队通过将生成的蒙版应用于来自ImageNet、Places2和CelebA-HQ数据集的图像，对神经网络进行训练。

在训练阶段，将空白或缺失部分引入上述数据集的完整训练图像中，使网络能够学会重建缺失的像素。

在测试阶段，将未应用于训练期间的不同空白或缺失部分引入数据集中的测试图像，以对图像重建的准确性进行无偏验证。

最新AI成像技术重建照片示例

研究人员表示，当前基于深度学习的图像修复方法成效有限，因为针对丢失像素的输出必然取决于为找出丢失像素而必须提供给神经网络的输入值。这就会导致图像中出现诸如颜色差异和模糊等伪像。

为解决这一问题，NVIDIA团队开发了一种方法，确保了丢失像素的输出不再有赖于为这些像素提供的输入值。此方法采用了“部分卷积”层，可根据其相应感受野（receptive field）的有效性，对每个输出进行“重新规格化”，确保输出值不依赖于每个感受野中缺失像素的值。该模型基于通过这些部分卷积实施的UNet架构而构建。使用一组能够将特征损失、以及风格损失与VGG模型相匹配的损失函数，可对模型进行训练，以生成逼真的输出。

因此，“该模型胜过早前的方法，”NVIDIA研究团队表示。

NVIDIA研究人员表示， “据我们所知，我们首次证实了针对不规则形状空白进行深度学习图像修复模型的有效性，”

研究人员还在其论文中（Image Inpainting for Irregular Holes Using Partial Convolutions，还提及了他们可应用相同的框架来处理图像超分辨率任务。

打开APP阅读更多精彩内容