深度学习术可以由一而多的图像翻译

nlfO_thejiangme 2018-04-24 5560

电子说

1.2w人已加入

描述

我们都知道变色龙可以改变皮肤的颜色纹理，而如今深度学习技术甚至可以做到将一只猫的图像同时转变为狗、甚至狮子和老虎的图像。这种可以将一张图片转换为多种不同目标的算法不仅为电影和游戏场景制作提供了丰富的素材，更能为自动驾驶迅速和便捷地生成不同路况下丰富的训练数据，以不断提高面对不同路况的能力。

由一而多的图像翻译

早先研究人员发现可以利用非监督的方法进行图像翻译，将一幅图像和视频转换为另一个。它通过利用来自独立域中边缘分布的图像来学习处于不同域之中的联合概率分布。研究人员通过建立共享隐含空间的假设，提出了一个图像对图像的非监督翻译框架，并利用对偶GANs实现了高效的图像翻译。在实验中进行了街道场景、动物图像以及人脸的图像翻译过程。

而随着研究的深入，研究人员们研发出了新的网络结构。这种多模态的网络结构将可以同时将一张图片转换为多张不同的图像输出。类似于早先的图像翻译研究，多模态图形翻译使用了两种深度学习技术：非监督学习和生成对抗网络（GANs）,其目的在于为机器赋予更强的想象力，可以让机器将阳光灿烂的街道照片变成狂风暴雨或者茫茫冬日的不同景色。这种技术对于无人驾驶有着极大的促进作用。与之前的技术不同，研究人员们通过转换不止能得到一个冬天的实例，而可以同时得到一系列不同降雪量的的冬日场景。这意味着单一的数据可以生成一系列丰富的、覆盖更广泛情况的数据集。

为了实现这一非监督图像的翻译任务，研究人员们提出了多模态非监督图像翻译架构（Multimodal Unsupervised Image-to-image Translation ，MUNIT），首先假设图像的表示可以被分解成与域无关的编码，同时可以采集到与域相关的风格编码。为了实现不同域间的图像翻译，作者将内容编码与目标域中采样的风格编码结合在一起，实现了多个目标样本的输出。这种多模态非监督图像翻译技术将图像内容和风格分离开来。例如对于图像中的一只猫来说，它的姿势是图像的内容而猫的种类则是图像的风格。在实际翻译过程中，姿势是固定的，而风格则随着目标的不同而不同。可以是狗狗或者豹子。动物的姿势是保持不变的，而它的风格则可以覆盖从柯基到美洲豹各色不同的品种。

同样的技术还能用于生成一天中不同时间的场景图像、不同天气条件下或者光照条件下的场景。这样的技术对于需要大量数据训练的深度神经网络大有裨益。

除了自动驾驶和深度学习领域外，多模态图像翻译技术还能为游戏公司提供一种迅速创造新角色和新世界的有力工具。同样艺术家们也可以生成复杂或者丰富场景的工作交给机器去处理，将更多的精力投入到创作的核心上来。

没数据？没问题！

这一研究主要建立在一种善于生成视觉数据的深度学习方法——GANs上。一个典型的GANs包含两个互相竞争的神经网络：一个用于生成图像而另一个用于判断生成的图像是否看起来像真的，或者是假的。GANs在数据短缺的时候会显示出更强大的能力。

一般的图像翻译需要两个互相关联的数据集：如果需要将猫转换为狗或者其他动物的话，需要收集同样姿势猫和狗的照片。而这样的数据十分稀缺，有些时候甚至是不可能收集的。而本文中提出的MUNIT方法则突破了这个限制，使得图像翻译的使用范围大大增加。它无需使用一一对应的数据即可实现多模态的转化。

MUNIT同时还可以在无需抓取同一视点记录的情况下为自动驾驶生成大量的训练数据，可以再同一视角同一地点的精确位置下生成各种交通情况和细节的数据。除此之外、GANs还免去了对于图像或者视频冗长的人工标注，节约了大量的时间和金钱。

论文的作者表示希望给机器赋予人类一样的想象力。就像人类在看风景时，无论庭前花开花落，总能想象出春夏秋冬四季变迁的模样。在眺望风景时候，朝晖夕阴、气象万千、四季轮回都了然于胸。

打开APP阅读更多精彩内容