基于生成对抗网络对随机变化进行建模

lhl545545 2022-08-14 990

电子说

1.4w人已加入

描述

在这项工作中，我们使用一种新颖的风格特征表示学习方法来解决任意图像风格转移的挑战性问题。作为图像风格化任务中的关键组成部分，合适的风格表示对于获得令人满意的结果至关重要。现有的基于深度神经网络的方法在二阶统计（如内容特征的 Gram 矩阵）的指导下取得了合理的结果。但是，它们没有利用足够的样式信息，这会导致局部失真和样式不一致等伪影。为了解决这些问题，我们建议通过分析多种风格之间的异同并考虑风格分布，直接从图像特征而不是二阶统计中学习风格表示。具体来说，我们提出了对比任意风格迁移（CAST），这是一种通过对比学习的新风格表示学习和风格迁移方法。我们的框架由三个关键组件组成，即用于样式代码编码的多层样式投影仪、用于有效学习样式分布的域增强模块以及用于图像样式迁移的生成网络。我们全面进行定性和定量评估，以证明与通过最先进的方法获得的方法相比，我们的方法取得了明显更好的结果。

延时图像序列为动态过程提供了视觉上引人注目的洞察力，这些过程太慢而无法实时观察。然而，由于随机效应（如天气）以及循环效应（如昼夜循环），将较长的延时序列作为视频播放通常会导致分散注意力的闪烁。我们以一种允许对图像中的整体趋势、循环效应和随机效应进行单独的事后控制的方式引入了解开延时序列的问题，并描述了一种基于数据驱动的生成模型的技术，该技术可以实现这个目标。这使我们能够以单独使用输入图像无法实现的方式“重新渲染”序列。例如，我们可以稳定一个长序列，在可选择的、一致的天气下，在几个月内专注于植物生长。

我们的方法基于生成对抗网络（GAN），它以延时序列的时间坐标为条件。我们的架构和训练程序的设计使网络学习使用 GAN 的潜在空间对随机变化（例如天气）进行建模，并通过使用具有特定频率的傅立叶特征将调节时间标签馈送到模型来解开整体趋势和循环变化。

我们展示了我们的模型对训练数据中的缺陷具有鲁棒性，使我们能够修正捕捉长延时序列的一些实际困难，例如临时遮挡、帧间距不均匀和帧丢失。

我们展示了Shoot360，一个高效生成多镜头的系统，给定不同环境下的 360 度视频录制集合，具有所需内容呈现和各种电影风格的普通视图视频。我们系统的核心是一个三步决策过程： 1）首先对内容进行语义分析，基于镜头单元的每个全景环境的兴趣，以及根据用户对内容呈现和电影风格的规范，生成一个指导，指定其输出镜头的语义焦点和运动类型。 2）基于获得的指导，它为每个镜头生成具有镜头级别控制参数的视频候选，用于遵循拍摄规则的视图投影。 3）系统进一步聚合投影的正常视图镜头与施加的局部和全局约束，其中结合了从示例视频和专业拍摄规则中学习的外部知识。广泛的实验验证了我们系统设计的有效性，我们总结了有希望的扩展，以将其应用于更通用的场景。　　

审核编辑：彭静

打开APP阅读更多精彩内容