谷歌推出能一次生成完整视频的扩散模型

微云疏影 2024-01-29 534

　　谷歌研究院近日发布了一款名为Lumiere的文生视频扩散模型，基于自家研发的Space-Time U-Net基础架构，独立生成具有高效、完整且动作连贯性的视频效果。

　　该公司指出，当前众多文生视频模型普遍存在无法生成长时、高品质及动作连贯的问题。这些模型往往采用“分段生成视频”策略，即先生成少量关键帧，再借助时间超级分辨率（TSM）技术生成其间的视频文件。尽管此策略可减缓RAM负担，但难以生成理想的连续视频效果。

　　针对此问题，谷歌的Lumiere模型创新地引入了新型Space-Time U-Net基础架构，这种架构能在空间和时间两个维度同时降低信号采样率，使其具备更高的计算效率，进而实现生成更具持续性、动作连贯的视频效果。

　　此外，开发者们特别说明，Lumiere每次可生成80帧视频（在16FPS模式下相当于5秒视频，或在24FPS模式下为约3.34秒视频）。尽管这一时光貌似短暂，然而他们强调，事实上，这段5秒视频所包含的镜头时长已超出大多数媒体作品中单一镜头的平均时长。

　　除运用架构创新以外，作为AI构建基础的预训练文生图像模型也得到了谷歌团队的特别关注。该模型首次生成简单像素草稿作为视频分帧，然后借助空间超分辨率（SRM）模型，逐步提高分帧分辨率，同时引入通用生成框架Multi-Diffusion以增强模型稳定性，从而确保最终输出的视频效果一致且连续。

打开APP阅读更多精彩内容