探讨条件GAN在图像生成中的应用

zhKF_jqr_AI 2018-01-11 11696

电子说

1.2w人已加入

描述

生成对抗网络一直是深度学习的重要工具，经过近几年的发展，GANs也衍生出了许多不同的模式，例如DCGANs、Wasserstein GANs、BEGANs等。本文将要探讨的是条件GAN（Conditional GANs）在图像生成中的应用。

条件GANs已经应用与多种跟图像有关的任务中了，但分辨率通常都不高，并且看起来很不真实。而在这篇论文中，英伟达和加州大学伯克利分校的研究人员共同提出了一个新方法合成高分辨率的街景，利用条件GANs从语义标签映射生成的2048x1024的图像不仅在视觉上更吸引人，同时生成了新的对抗损失以及新的多尺度生成器和判别器体系结构。

合成实例级别的图像

接下来就是该项目的具体实验过程。首先，是基线算法pix2pix的运用。pix2pix是用于图像翻译的条件GAN框架，它包含一个生成网络G和一个判别网络D。在这项任务中，生成网络G的目标就是将语义标签映射翻译成接近真实的图像，而判别网络D的目标是将生成图像与真实图像作对比。

pix2pix利用U-Net作为生成网络，同时用基础的卷积网络作为判别器。然而，利用数据集Cityspaces生成的图像分辨率最高只有256x256的，以至于训练过程十分不稳定，生成图片的质量也不是很好，所以pix2pix框架需要进行一些改善升级。

研究人员将生成网络换成由粗到精的网络，并采用多尺度的判别网络结构。同时采用稳定的对抗学习目标函数。

由粗到精的生成网络（Coarse-to-fine generator）

研究人员将生成网络分成了两部分：全局生成网络G1和局部增强网络G2。全局生成网络G1的可接受的分辨率为1024x512，局部增强网络输出的图像分辨率为前一个图像的4倍。如果还想得到更高的合成图像，可以继续增加局部增强网络。

深度学习

生成网络结构

多尺度判别网络（multi-scale discriminators）

对GAN的判别网络来说，高分辨率的图像是不小的挑战。为了区分真正的高清图片与合成图片，判别网络需要一个巨大的接收区（receptive field）。所以这就需要一个更深的网络或更大的卷积核。但是这两种方法都会增加网络的能力，有可能导致过度拟合。并且它们在训练时都需要更大的存储脚本，这对高分辨率的图像生成来说是很稀少的。

为了解决这一问题，研究人员提出了使用多尺度判别器的方法，即用三种拥有同样结构的网络，但针对不同尺寸的图片运行。能处理最大尺寸的网络拥有最大的接收区，它能引导生成网络生成整体更协调的图像。而处理最小尺寸的网络能引导生成网络在细节上处理得更仔细。

损失函数

研究人员从鉴别网络的多个层中提取特征，并学习从真实和合成图像中匹配这些中间表征。为了方便表示，我们将判别网络Dk的第i层表示为Dk(i)，特征匹配损失LFM(G, Dk)表示为：

深度学习

其中T是总层数，Ni表示每层的组成要素。

最终将GAN损失和特征匹配损失结合起来的函数表示为：

深度学习

其中λ控制两项的重要性。

现有的图像合成方法仅使用语义标签映射，其中每个像素值代表像素所属的对象类别。这种映射不区分同一类别的对象。另一方面，实例级别的语义标签映射包括每个单独对象的唯一ID。要包含实例映射，一个简单的方法是将其直接传递给网络，或者将其编码成一个单独的向量。然而，由于不同图像可能包含不同数量相同类别的对象，所以这两种方法在实践中都难以实现。

所以我们选择用实例映射，它能够提供语义标签映射中没有的对象边界（object boundary）。例如，当多个相同类别的对象彼此相邻是，只查看语义标签映射无法区分它们。

深度学习

下图显示用实例边界映射训练的模型，图像边界更清晰。

深度学习

结果对比

为了量化合成图像的质量，研究人员对其进行语义分割，并比较预测的预测的部分与输入部分的匹配程度。从下表可以看出，我们使用的方法远远优于其他方法，并且十分接近原始图像。

深度学习

在CityScapes数据集上，在没有损失函数的情况下，我们的方法也依然比其他两种方法更优。

在NYU数据集上，我们的方法生成的图片比其他方法生成的图片看起来更真实。

其他结果：

输入标签（左）与合成图像（右）

放大后可以看到图中对象的细节更清晰

在ADE20K数据集的实验，我们的结果生成的图片真实度与原图相差无几

在Helen Face数据集上的实验，用户可以在互动界面实时改变脸部特征。例如变换肤色、加胡子等等

各位可以到网站上自行绘制你的“大作”：uncannyroad.com/

结语

实验的结果表明，条件GANs无需手动调整损失函数或提前训练网络，就能合成高分辨率的逼真图像。我们的成果将帮助许多需要高分辨率图像，但却没有预先训练网络的领域，比如医疗影像和生物领域。

同时，这篇论文还向我们展示出，图像到图像的合成pipeline可以用来生成多种结果。研究人员认为这些成果有助于扩大图片合成的应用范围。

打开APP阅读更多精彩内容