南开大学和字节跳动联合开发一款StoryDiffusion模型

冬至配饺子 2024-05-07 1264

描述

近日，南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。其核心在于“一致自注意力”机制，强化图像间一致性，无需额外训练即可提升现有文本到图像模型的表现。加之“语义运动预测器”，利用语义空间预测图像序列间的流畅变换，尤其在长视频生成中展现了前所未有的稳定性与主体一致性。此框架使基于文本的复杂故事视觉化成为可能，不仅在角色与场景细节一致性上超越 IP-Adapter 等工具，还能精准匹配文本描述。

南开大学和字节跳动联合开发的StoryDiffusion模型是一种新的机器学习技术，主要用于生成具有长距离相关性的图像和视频。以下是该模型的一些主要特点：

1.一致性自注意力（Consistent Self-Attention）：该模型通过一种新的自注意力计算方法，在生成图像时建立批内图像之间的联系，以保持人物的一致性。这种机制无需训练即可生成主题一致的图像，解决了在一系列生成的图像中保持内容一致性的挑战，尤其是对于包含复杂主题和细节的图像。

2.语义运动预测器（Semantic Motion Predictor）：为了将这种方法扩展到长视频生成，StoryDiffusion引入了语义运动预测器，将图像编码到语义空间，并预测语义空间中的运动，以生成视频。这种基于语义空间的运动预测比仅基于潜在空间的预测更加稳定。

3.两阶段长视频生成方法：通过Consistent self-attention机制生成的图像可以顺利过渡为视频，实现两阶段长视频生成方法。结合这两个部分，可以生成常长且高质量的AIGC视频。

4.用户交互性：用户可以通过提供一系列用户输入的条件图像，使用Image-to-Video模型生成视频。此外，用户还可以通过Jupyter notebook或本地adio demo来生成漫画。

5.应用范围：StoryDiffusion的应用范围广泛，包括漫画生成、图像转视频等多种场景。

StoryDiffusion模型利用了一种称为StoryGAN的生成模型，该模型可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频生成技术中的局限性，使得生成的图像和视频更加自然和连贯。

打开APP阅读更多精彩内容