能创造出有逼真纹理和形状的一个生成式AI系统

电子工程师 2018-12-06 4754

电子说

1.4w人已加入

描述

用 AI 生成逼真三维物体模型并不像人们以为的那么困难。

近日，在 NeurIPS 2018 会议上接收的论文“ 视觉对象网络：图像生成与分离式的3D表示”中，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）和 Google 的研究人员介绍了能创造出有逼真纹理和形状的一个生成式 AI 系统。

该系统是视觉对象网络（VON）系统，不仅可以生成比某些最先进的方法更真实的图像，还可以进行形状和纹理编辑、视点转换以及其他三维调整。

“现代深层生成模型学会了合成逼真的图像，”研究人员写道，“但大多数计算模型只专注于生成 2D 图像，而忽略了 3D 世界的美好......这种视角不可避免地限制了它们在许多领域的实际应用，例如合成数据生成、机器人学习、虚拟现实和游戏行业。”

视觉对象网络系统则可以通过合成三维形状和二维图像来解决这个问题，类似于研究人员所称的“分离式的对象表示”。图像生成模型被分解为三种因素：形状、视点和纹理，另外，在计算“2.5 D”草图和添加纹理之前，它需要学习合成三维形状。

重要的是，由于这三个因素是条件独立的，所以模型不需要二维和三维形状之间的配对数据。这使得团队能够在大规模的二维图像和三维形状集上进行训练，如 Pix3D，Google 图像搜索和ShapeNet，后者包含 55 个对象类别的数千个 CAD 模型。

为了让 VON 系统学习如何生成自己的形状，该团队在上述三维形状数据集上训练了一个生成式对抗网络（GAN）。而纹理生成被归类了到另一个基于 GAN 的神经网络。

经过大约两到三天的训练，AI 系统始终如一地生成了令人信服的 128 x 128 x 128 模型，具有优异的反射率、环境照明和反照率（一种漫射光的度量）。

为了评估图像生成模型，团队计算了用于生成三维模型的 Fréchet Inception Distance（弗雷歇初始距离，FID）——一种与人类感知相关的度量。此外，他们还向亚马逊 Mechanical Turk 上的五名测试者展示了由 VON 和其他最先进模型生成的 200 对图像，这些受试者需要在这些图像中选择更真实的结果。

VON 的表现非常出色。它与所有 AI 模型相比具有最低的 FID 值，并且 Mechanical Turk 的受访者表示更喜欢 VON 生成的 74％到 85％的图像。

研究人员未来将专注于从粗糙到精细化的建模，以产生更高分辨率的生成形状和图像，并将纹理分解为光照和外观（lighting and appearance），并合成自然场景。

“我们的主要想法是将图像生成过程分解为形状、视点和纹理三种因素，”Google 团队写道，“这种分离式 3D 表示使我们能够在对抗学习框架下从 3D 和 2D 视觉数据集合中学习模型。与现有的 2D 生成模型相比，我们的模型合成了更逼真的图像，它还可以做到以前的 2D 方法也无法实现的各种 3D 操作。”

近年来，GAN 的研究突飞猛进，特别是在机器视觉领域。

Google 的 DeepMind 子公司在 10 月推出了一个基于 GAN 的系统，以此创建出令人信服的食物、风景、肖像和动物照片。9 月， Nvidia 的研究人员开发了一种 AI 模型，可以生成脑癌的合成扫描图像，8 月，卡内基梅隆大学的一个团队演示了 AI 可以将人们已存的动作和面部表情转换成另一张照片或视频中的目标对象。最近，爱丁堡大学感知研究所和天文学研究所的科学家设计了一种至少可以产生高分辨率星系图像的 GAN。

打开APP阅读更多精彩内容