图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗？

zhKF_jqr_AI 2018-11-21 6457

电子说

1.2w人已加入

描述

编者按：今年国庆期间，论智介绍了当时正处于ICLR 2019盲审阶段的一篇论文：BigGAN。这是赫瑞-瓦特大学和DeepMind研究人员的合作成果，根据实验结果，他们把模型IS提高了一百多分——从52.52提升到了166.3——堪称图像生成领域的一个巨大进展。但大家都知道，通常论文里呈现的图像都是精品中的精品，媒体在宣传时也会尽量美化甚至“神化”结果。那么BigGAN的效果真的有那么好吗？

当我第一次看到这些图像时，说实话我很惊讶。不是因为图像本身潜藏着什么内容，而是它们都是一个叫BigGAN的神经网络生成的，都是假的，我还从来没见过这样宛若照片的生成图像。

上面这8幅图截自BigGAN的论文：Large Scale GAN Training for High Fidelity Natural Image Synthesis（arXiv:1809.11096），感兴趣的读者可以去读一读。几个月前，这篇论文在机器学习社区引起了巨大轰动，它不仅能生成512x512的高分辨率图像，还在Inception标准基准测试中取得了历史性的高分。人们在惊异于论文团队能支撑起的庞大处理能力（512 TPUv3）的同时，也不由心生怀疑：BigGAN是不是作弊了？它是不是直接照搬的训练集图像？

为此，不少研究人员去原始ImageNet检验了自己的想法，然而他们最终得出的结论是：这些图像确实都是BigGAN自己生成的。

虽然前人的做法已经证实BigGAN是“诚实”的，但如果我们再“杠”一下，一个合理的怀疑是论文结果之所以令人印象深刻，一个原因是这都是精选后的图像。就在几天前，BigGAN放出了自己的TF Hub Demo，相信不少人已经去体验过了，也发现这个问题。模型在一些常见物品上的表现非常好，比如狗和简单风景，因为它们往往画面单一、结构简单，但在生成更复杂、更多样的的人群上却很糟糕。

那么BigGAN不完美的一面是什么样的呢？下面是研究人员发布的一些生成图像：

毫无疑问，这三幅图展示的都是时钟，但区别于现实中的实物，这些钟更像人梦里的场景：诡异的字母、多余的指针。负责任的说，这些是BigGAN生成图像中的常见问题，它不能学习数据集里的各种字母和字符，再加上GAN本身不提供计数功能，所以我们经常能在里面发现有很多条腿的蜘蛛和眼睛长太多的青蛙，有时还可以看到有两个火车头的火车。

至于人类……相比其他能生成多样性图像的GAN，BigGAN在生成人类图像上其实已经很不错了。但我们是人，很擅长在这个物种的脸上、躯体上发现“丢失”部分，所以下面这些结果还是很令人头疼。

因此，如果快速浏览BigGAN生成的一系列图像，我们能从中发现不少图具有诡异的美感。比如模型在生成下面几幅景观图时都遵循了从数据集中学到的构图和光影，但当这些来自不同样本的素材杂糅到一起后，它们给人的感觉就成了既熟悉又奇怪。

当它试图“复制”各种人造设备（洗衣机？熔炉？）时，图像呈现的画面又极具艺术气息，仿佛电影中的一些夸张而富有韵味的过场镜头。

更有甚者，BigGAN还能模仿宏观上的软焦点，即一种通过有意识降低镜头的清晰度，得到柔和的表现效果的摄影技巧。如下图所示，我们看不清图中的对象是什么，但它们都表现出了极强的绘画感。

即便是最普通的东西，BigGAN仿佛成了一面滤镜，把它们渲染得极具美感，令人难以忘怀。

这是艺术吗？对于计算机视觉任务而言，这些充满“想象力”的扭曲恰好是BigGAN的不足，毕竟它的目标是生成极其逼真，同时尽可能多样化的图像。它并不是在创作，而只是在模型它看到的数据——ImageNet，一个巨大的用于训练各种图像处理算法的通用数据集。

但是，我们也必需认识到，研究人员在BigGAN的输出里精挑细选的过程其实也是一种艺术行为，包括这篇文章本身。你可以用这种方法讲述一个故事，或是制作一部令人难忘的美丽电影，这一切都取决于你收集的数据集以及选择的输出。未来，像BigGAN这样的算法将改变人类艺术——不是取代人类艺术家，而是成为一个强大的新协作工具。

打开APP阅读更多精彩内容