基于GANs的新型自拍卡通化方法

电子说

1.3w人已加入

描述

刚刚假期归来的你,一定在手机里存了美美的自拍。如果可以把这些自拍变成卡通效果的美照,在朋友圈里一定会独树一帜。

这样的画风比起自拍多了些艺术的气息。但是要实现高质量的卡通艺术p图没有一定的美术基础很难做出令人满意的效果。那近日,来自京东AI研究院的研究人员们提出了一种基于GANs的新型自拍卡通化方法,在保证五官和面部表情细节的前提下,通过三种不同的损失函数将自拍像转换为高质量的卡通化图像。相比于传统方法在细节和保留和局部纹理的抽象上都有了大幅度的提升。卡通化的自拍在日常生活中一直有着很大的需求。人们可以将卡通化的自拍作为社交网络的头像,在彰显个性的同时也在一定程度上保护隐私。此外在在线游戏和艺术海报、插画设计中也十分重要。但高质量的卡通化自拍需要画师花费大量的时间,如何高效的生成高质量的自拍图像成为摆在研究人员面前需要解决的问题。对于这个问题,目前的方法主要分为两类。传统方法主要基于草图抽取的方法,并基于一定的颜色和形状后处理来生成卡通化自拍,这种方法在很多拍照app中广泛使用。谷歌应用商店里就有许许多多类似的应用。

但这些方法常常需要人类工程师精心设计算法,对于不同的风格都需要进行特殊的算法设计和调整,同时在细节方面与插画师还有很大距离。这些方法一般通过人脸识别分割出五官位置,随后利用卡通的渲染方法或特殊滤波器来对图像处理得到卡通化图像。虽然这些方法可以在手机上实现实时处理,但他们对于面部的细节保持和图像抽象还不完善。近年来深度学习的发展给出了新的解决方案。神经风格迁移(Neural Style Transfer,NST)可以将风格图像的风格迁移到内容图像中去。但通用的NST在应用于卡通化时缺乏针对性的风格化能力。另一种基于生成对抗网络的方法通过对抗的方法来实现图像域迁移,研究人员们相继提出了pix2pix、Bicycle等方法将图像从一个域映射到另一个域中。然而其最大的缺点在于需要大量的配对数据来实现训练,这对于很多图像迁移任务来说很不现实。为了解决这一问题,研究人员们又开发出了CycleGAN和UNIT等非监督的域迁移方法来使用非配对数据训练模型。对于图像卡通化,CartoonGAN、DAGAN等模型已经进行了很多有益的探索,但在捕捉图像细节、特别是对于自拍图像生成高质量结果方面还存在很多问题。如何尽可能的保留面部特征细节同时保持艺术作品的风格化是研究人员们需要解决的问题。针对自拍卡通化任务,目前主要面临三个挑战:缺乏针对人类自拍像以及对应卡通像的公开数据集;如何保留卡通化风格,包括内容的抽象和纹理特征的简化;最后在生成卡通像时,如何保持最主要的面部轮廓特征,同时又要避免引入大量无用的细节问题?

Selfie Cartoonization GANs

为了解决这一问题,研究人员基于GAN的架构和循环注意力损失提出了针对自拍像卡通化的架构scGANs,充分利用了注意力对抗网络来强化面部特定区域同时忽视低层次的纹理细节。模型的架构如下图所示:

架构图中显示了自拍到卡通的训练过程,省略了卡通到自拍的过程。

生成器首先将自拍转换为手绘卡通图像,最后另一个生成器又将生成的手绘卡通转换会自拍照。对于卡通图像来说也基于同样的过程来训练模型。考虑到卡通图像的纹理特征和数据集的大小,模型中使用了Unet的架构,可以更好的保证面部及五官的边缘特征。判别器则使用了基于图像片的方法,不仅需要判别卡通形式的对抗损失,在模型的另一方面训练中还需要判断真实图像的对抗损失。除了对抗损失外研究人员在这一架构中加入了三项新的损失,分别是注意力循环损失、总变分损失和感知损失。受到cycleGAN中循环连续损失的启发,研究人员提出了注意力循环损失来引导生成更好的生成面部的主要细节。例如眼影、瞳孔、鼻翼、嘴角等。针对这些面部区域网络给予更多的注意。在这一工作中,研究人员利用人脸识别方法标记出了4个区域,分别是完整自拍、眼睛、鼻子和嘴。针对每个区域设置对应的权重来构造损失。

此外由于卡通图像具有高度简化的特征和均匀的颜色,需要在像素级损失上进行引导。研究人员观察到画师的作品(左)仅仅在边缘具有较大的梯度变化,而大多数区域中梯度变化较小。生成的图像则全局都具有杂乱的梯度场。

从上面的梯度图中可以看出,要生成高质量的卡通化自拍,还需要在保持主要边缘梯度的情况下移除其他区域的提出。所以研究人员提出了总变分作为损失来最小化合成图像与手绘图像间的梯度差,这一方法可以很好的移除脸颊处的阴影,更精确的刻画鼻子。最后为了保留输出图像中的空间结构和内容特征,研究人员利用VGG中conv4_4层来计算生成图像与对应图像间的感知损失。最后的损失函数如下所示:

数据集

为了训练模型,研究人员通过谷歌图片搜索利用关键词搜索了3524张肖像照,同时从在线绘画商店中下载了手绘、水彩和动漫等不同风格共计4580张卡通图像。通过训练后,下图是与目前几种基于深度学习方法的对比:

最后一列是本文提出的方法

可以看到这种方法在整体上优于目前的深度学习方法。NST虽然保留了面部细节但无法有效学习风格特征,cartoonGAN生成的效果则无法保留原始图像中的内容信息,特别是眼部特征丢失严重。UNIT和cycleGAN的效果稍好,但是在脸颊、嘴和鼻子等位置还有很多令人不满意的地方。下表是本文方法的感知评断得分表,明显好于其他几种方法:

数据集

研究人员随后还对三种损失进行了消融性分析。下图中的be没有加总变分损失tv,而cf则加入了总变分损失。可以看到加入损失后眼线更加清晰、脸颊也更加平滑无影。这对于现实情况中复杂的光照和背景十分有用。

对于注意力循环和感知损失的消融性分析,可以看到在只使用循环损失时效果并不好,而加入了注意力循环损失后五官的生成质量得到了提升,感知损失同时保留了更多低层级的重要特征(眉毛和唇色)。

最后让我们在来体会下各种卡通的自拍照吧,看看动漫的头像:

或者来个水彩风格:

今天开工了,给自己换个美丽的头像好好加油啊!!


打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分