多模态风格迁移——生成更加美丽动人的风格图像

nlfO_thejiangme 2019-05-01 4952

电子说

1.3w人已加入

描述

对风格图像的风格进行聚类实现多模态表示，并对风格与内容图的空间特征进行匹配实现了具有多种模态风格的、具有内容自适应性风格迁移。

图像风格迁移是一种利用风格图像中的特征将内容图像渲染成类似风格图像效果的技术，随着深度学习的发展越来越精美的图像被生成出来甚至可以与专业画家相媲美。由于人们发现卷积特征间的相关性可以表示图像的风格，这使得迭代优化网络参数或者利用前传网络生成风格图像成为可能，目前的方法主要利用风格图的预训练模型来对任意的输入进行风格化处理，或者抽取风格图的特征对内容图进行风格化。这些方法大都假设图像的风格可以通过格拉姆矩阵等深度特征的全局统计信息来描述。

尽管这些方法可以保存内容图像并匹配风格图像的特征，但很多时候还是会在局部产生一系列扭曲和变形，造成明显的人工痕迹。如何处理这些问题成为了风格迁移领域的研究难点和热点。下图展示了先前方法的风格迁移图像的一些结果，其中第一列大图为内容图，右下角小图为风格图，最后一列为本文提出的多模态风格迁移(Multimodal Style Transfer,MST)方法：

在第一行中左下角的风格图像中包含一系列复杂的纹理和线条，先前的方法无法区分风格图像中不同的风格，并且对于内容图像不加区分地进行了风格化处理，这使得在背景天空等区域出现了一些较为明显的线条，破坏了内容图原有的连续性。让我们再来看看第二行，这里的风格图像模式清晰，包含了统一的背景和红色/黑色的前景。AdaIN,WCT和LST等方法都无法较好的保持内容图像的结构特征，受到冲洗效应（wash-out artifacts.）的影响使得很多内容细节变得模糊。这主要是由于单调的背景在风格图中占比过大，造成了背景全局风格特征中占据了主导地位。从这些结果中可以看出类似格拉姆矩阵或协方差均值这类全局单模态的统计表示不足以表达特征图丰富、多模态的特征。理想的特征表达应该是具有空间分布的特征模式。

尽管基于图像片的方法这些模型可以在内容图像和风格图像具有相似结构特征时生成视觉效果较好的风格图，但这些方法很多时候会在生成图像中引入不该出现的风格模式。在上图中最后两行的图像中可以明显看到这些结果。例如风格图像中的眼睛、嘴唇等模式都会被copy到背景中（倒数第二行），甚至在最后一行中我们可以看出内容图像已经发生改变，女孩的脸型受到了风格图像的影响。这些缺点大大限制了生成高质量风格图像的应用，为了解决这些问题研究人员从风格分布的角度提出了一种多模态风格迁移的方法，实现了灵活、通用风格化过程，并充分利用并有效平衡了参数化和非参数化方法的优势。

具体来说，研究人员提出了多模态风格表示方法来表示风格图的特征，并基于图方法的匹配机制来实现风格特征和内容图像的匹配。研究人员在对多种风格图像风格分布分析的基础上认为多模态表示是更为有效的风格表达方式，并利用表示不同特定特征的风格集合来实现多模表示，可利用这些特征来实现会对不同特征的混合与匹配，得到丰富多彩的风格化图像。

为了实现风格-内容的匹配，研究人员提出了基于图的能量最小化方法，并利用图割的方式来求解。风格表达通过内容的空间特征来匹配。最后研究人员还利用了不同的子风格数量探索了多模态表达的鲁棒性和有效性，实验表明MST可有效改进现有风格化方法表现。

接下来让我们一起来探索高效的多模态风格表示，并研究如何为每一种内容特征与风格特征进行匹配，最后将在对应的特征子空间中实现风格转换。

多模态表示

基于卷积的图像风格迁移主要利用两种方法来对特征进行表示，一种假设全局具有相同分布并用全局特征来表风格，另一种则基于图像片提取风格。当风格图像具有多种特征时、单一均匀的方法无法较好的处理。在下图中可以看到对于风格特征的聚类，明显具有多种不同的风格模式。

而基于图像片的方法来说，会造成多个相同模式的图像片被copy到最终结果中造成不连续不美观的局部畸变。为了处理这些问题研究人员提出了利用多模态来表示风格图的特征，通过将风格分为多个子集实现了高维空间中的模态聚类，在特征空间中通过K均值聚类来对特征点进行分割：

K均值

特征Fs被分解成多个子特征，每个特征都有自己的特征标签lk。在特征空间中的邻近点具有相同的视觉特征。通过这样的方法就将先前均一模式的特征表达分解到了多个子空间中。

基于图的风格匹配

针对内容图，同样需要抽取特征。随后对内容特征和风格特征进行距离测量，基于余弦距离计算出每一个风格特征与内容特征的距离，并最小化数据能量函数来匹配对应的特征：

K均值

随后还需要考虑内容图像的空间信息来保留内容的连续性和边缘的完整，并希望内容图像同一局域拥有相同的特征标签，所以还引入了内容平滑项：

K均值

最后将两项能量函数联合起来并最小化就能得到风格与对应内容匹配的结果。研究人员提出了基于图的方法来最小化，并最终实现了像素级的风格匹配。

实验发现，风格特征的聚类将抽取出图像中的语义信息。在获得像素级的匹配图后，就可以更具内容的特征自适应的匹配不同风格来实现更为有效的图像风格化操作。下图分别显示了具有两个/三个子风格的风格匹配图像。

通过一系列的实验表明，这种方法在边缘保留、特征自适应匹配等方面具有十分优异的表现。研究人员探索了不同风格聚类数量对于风格化的影响，可以看到越多的子风格数对图像的表达越完整，迁移后的图像具有更好的视觉连续性：

在匹配图中我们可以看到不同特征的分布区域，下图中可以看到聚类数为3时不同特征对应内容图和特征图的区域模式。

这种利用多模态的风格表示方法有效的将风格图中的不同特征进行了更为丰富完整的表示，并利用特征匹配的方法为不同的内容区域匹配不同的特征，自适应的实现具有空间分布的风格迁移。MST的思想可以有效拓展到现有的风格迁移方法中，提高最终生成的风格图像的视觉效果。最后让我们再来欣赏一些机器生产的美丽画作吧！

MST方法得到的结果与其他方法的比较

打开APP阅读更多精彩内容

​多模态风格迁移——生成更加美丽动人的风格图像

描述

多模态风格迁移——生成更加美丽动人的风格图像