如果你是摄影爱好者,你可能对滤镜并不陌生。它可以改变照片的色彩风格,使风景照片变得更清晰或肖像照片皮肤变白。但是,一个滤镜通常只会改变照片的一个方面。要为照片应用理想的风格,您可能需要尝试多种不同的滤镜组合。这个过程与调整模型的超参数一样复杂。
在本节中,我们将利用 CNN 的分层表示将一幅图像的风格自动应用到另一幅图像,即 风格迁移 (Gatys等人,2016 年)。此任务需要两张输入图像:一张是内容图像,另一张是风格图像。我们将使用神经网络修改内容图像,使其在风格上接近风格图像。例如 图14.12.1中的内容图片是我们在西雅图郊区雷尼尔山国家公园拍摄的风景照,而风格图是一幅以秋天的橡树为主题的油画。在输出的合成图像中,应用了样式图像的油画笔触,使颜色更加鲜艳,同时保留了内容图像中对象的主要形状。
14.12.1。方法
图 14.12.2用一个简化的例子说明了基于 CNN 的风格迁移方法。首先,我们将合成图像初始化为内容图像。这张合成图像是风格迁移过程中唯一需要更新的变量,即训练期间要更新的模型参数。然后我们选择一个预训练的 CNN 来提取图像特征并在训练期间冻结其模型参数。这种深度 CNN 使用多层来提取图像的层次特征。我们可以选择其中一些层的输出作为内容特征或样式特征。如图14.12.2举个例子。这里的预训练神经网络有 3 个卷积层,其中第二层输出内容特征,第一层和第三层输出风格特征。
接下来,我们通过正向传播(实线箭头方向)计算风格迁移的损失函数,并通过反向传播(虚线箭头方向)更新模型参数(输出的合成图像)。风格迁移中常用的损失函数由三部分组成:(i)内容损失使合成图像和内容图像在内容特征上接近;(ii)风格损失使得合成图像和风格图像在风格特征上接近;(iii) 总变差损失有助于减少合成图像中的噪声。最后,当模型训练结束后,我们输出风格迁移的模型参数,生成最终的合成图像。
下面,我们将通过一个具体的实验来解释风格迁移的技术细节。
14.12.2。阅读内容和样式图像
首先,我们阅读内容和样式图像。从它们打印的坐标轴,我们可以看出这些图像具有不同的尺寸。
14.12.3。预处理和后处理
下面,我们定义了两个用于预处理和后处理图像的函数。该preprocess
函数对输入图像的三个 RGB 通道中的每一个进行标准化,并将结果转换为 CNN 输入格式。该postprocess
函数将输出图像中的像素值恢复为标准化前的原始值。由于图像打印功能要求每个像素都有一个从0到1的浮点值,我们将任何小于0或大于1的值分别替换为0或1。
rgb_mean = torch.tensor([0.485, 0.456, 0.406])
rgb_std = torch.tensor([0.229, 0.224, 0.225])
def preprocess(img, image_shape):
transforms = torchvision.transforms.Compose([
torchvision.transforms.Resize(image_shape),
torchvision.transforms.ToTensor(),
torchvision.transforms.Normalize(mean=rgb_mean, std=rgb_std)])
return transforms(img).unsqueeze(0)
def postprocess(img):
img = img[0].to(rgb_std.device)
img = torch.clamp(img.permute(1, 2, 0) * rgb_std + rgb_mean, 0, 1)
return torchvision.transforms.ToPILImage()(img.permute(2, 0, 1))
rgb_mean = np.array([0.485, 0.456, 0.406])
rgb_std = np.array([0.229, 0.224, 0.225])
def preprocess(img, image_shape):
img = image.imresize(img, *image_shape)
img = (img.astype('float32') / 255 - rgb_mean) / rgb_std
return np.expand_dims(img.transpose(2, 0, 1), axis=0)
def postprocess(img):
img = img[0].as_in_ctx(rgb_std.ctx)
return (img.transpose(1, 2, 0) * rgb_std + rgb_mean).clip(0, 1)
14.12.4。提取特征
我们使用在 ImageNet 数据集上预训练的 VGG-19 模型来提取图像特征( Gatys et al. , 2016 )。
为了提取图像的内容特征和风格特征,我们可以选择VGG网络中某些层的输出。一般来说,越靠近输入层越容易提取图像的细节,反之越容易提取图像的全局信息。为了避免在合成图像中过度保留内容图像的细节,我们选择了一个更接近输出的VGG层作为内容层来输出图像的内容特征。我们还选择不同 VGG 层的输出来提取局部和全局风格特征。这些图层也称为样式图层。如第 8.2 节所述,VGG 网络使用 5 个卷积块。在实验中,我们选择第四个卷积块的最后一个卷积层作为内容层,每个卷积块的第一个卷积层作为样式层。这些层的索引可以通过打印pretrained_net
实例来获得。
当使用 VGG 层提取特征时,我们只需要使用从输入层到最接近输出层的内容层或样式层的所有那些。让我们构建一个新的网络实例net
,它只保留所有用于特征提取的 VGG 层。
给定输入X
,如果我们简单地调用前向传播 net(X)
,我们只能得到最后一层的输出。由于我们还需要中间层的输出,因此我们需要逐层计算并保留内容层和样式层的输出。
下面定义了两个函数:get_contents
函数从内容图像中提取内容特征,函数get_styles
从风格图像中提取风格特征。由于在训练期间不需要更新预训练 VGG 的模型参数,我们甚至可以在训练开始之前提取内容和风格特征。由于合成图像是一组需要更新的模型参数以进行风格迁移,因此我们只能extract_features
在训练时通过调用函数来提取合成图像的内容和风格特征。
def get_contents(image