谷歌发明的由2D图像生成3D图像技术解析

MEILIFENGQ 2020-12-24 5821

电子说

1.4w人已加入

描述

谷歌发明的由2D图像生成3D图像的技术，利用3D估计神经网络图像信息的补全以及预测，融合了拍摄角度、光照等信息，让生成的3D图像看起来更加逼真，这种技术对于三维建模以及工业应用都具有极大的指导意义。

谷歌研究人员制作的一个AI工具，可以把涂鸦变成奇怪的怪物。这款工具名为Chimera Painter，使用机器学习来根据用户的粗略草图生成图像。

Chimera Painter背后的团队在一篇博客文章中解释了他们的方法和动机，称他们的想法是创造一种 “画笔，它的行为不像工具，而更像助手”。Chimera Painter只是一个原型，但如果这样的软件变得普遍，它可以减少创造高质量艺术所需的时间。

这种图像生成技术，其实在三维渲染方面有着非常广泛的应用，其中最具有代表性的工作之一，就是由2D图像生成3D图像。我们知道，3D图像相比于2D图像多了深度信息这一个维度，但也就是这一个差别，导致了3D图像相比于2D图像所多出的信息不是一星半点。因此，倘若想要从2D图像生成3D图像，其难度之大可想而知。

为此，谷歌在18年10月18日申请了一项名为“通过渲染许多3D视图来学习重构3D形状”的发明专利（申请号：201880030823.5），申请人为谷歌有限责任公司。

根据该专利目前公开的资料，让我们一起来看看这项从2D图像到3D图像的生成方法吧。

该技术中，主要使用了3D估计器神经网络，如上图，为使用3D估计器神经网络来估计图像中描绘的面部的3D形状和纹理，并基于估计的3D形状和纹理生成替身的系统示意图。用户通过上传面部图像105，系统100可以对照片进行处理后生成替身115，这里所说的替身也就是用户的3D画像。

在具体的过程中，照片首先由面部识别引擎110进行处理，从而生成用户的面部图像特征112，该特征在3D估计神经网络中被处理，基于图像特征估计照片中描绘的用户面部的3D形状和纹理，从而生成形状纹理数据122。

最后，数据122被发送到3D渲染引擎130中，基于用户独特的面部形状、纹理特征来生成用户的3D画像，并且为了做到更加真实，渲染引擎可以给出特定的视图，视图中融合了相机角度、光照以及视场的估计信息，可以让生成的图像质量更加逼真。

如上图，为用于用户3D渲染图像生成的3D估计器神经网络220的系统框图，整个系统的结构还是相当复杂的，从图中我们可以看到这种神经网络是如何工作的。根据目前的技术来看，训练3D估计器神经网络通常有两个困难：第一，由3D对象的图像和那些3D对象的3D形状和纹理组成的训练对通常是有限的并且难以获得；第二，训练3D估计器神经网络可能经常导致3D估计器神经网络的网络欺骗。

因此，该专利发明的整个网络分为了监督训练回路以及无监督训练回路，通过二者相结合的方式，在完全训练阶段期间，仅利用无监督训练回路，从而允许估计神经网络输出更快地收敛。

因为无监督训练回路可以在预训练阶段和完全训练阶段两者期间使用，所以从无监督训练回路开始，在预训练之后，完全训练可以对大量迭代和大量样本单独利用无监督训练回路，来改进3D估计神经网络估计图像中的对象的3D形状和纹理的能力。

最后，是这种无监督训练回路训练的流程图，系统首先需要获取对象图像的第一图像特征，该特征就是上述所说用户面部信息的原始数据，其次，将这种第一图像特征提供给3D估计器神经网络并获取3D形状和纹理。

根据这些形状和纹理进行3D渲染，并从多个3D视图中导出第二图像特征，基于图像特征的损失函数计算损失，以知道神经网络进行反向传播以得到更加良好的效果以及减少图像生成的损失。

以上就是谷歌发明的利用2D图像生成3D图像的专利技术，从2D到3D图像的转换过程中，由于2D图像缺少了很多信息，因此该技术利用3D估计神经网络进行信息的补全以及预测，并融合了拍摄角度、光照等信息，让生成的3D图像看起来更加逼真，这种技术对于三维建模以及工业应用都具有极大的指导意义。

关于嘉德

深圳市嘉德知识产权服务有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成，熟悉中欧美知识产权法律理论和实务，在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。
责任编辑:tzh

打开APP阅读更多精彩内容