阿里巴巴发布AtomoVideo，兼容多款文生图模型的高保真图像视频框架

微云疏影 2024-03-07 276

描述

　　据披露，阿里巴巴研发部门近期推出了一款名为 AtomoVideo 的高保真 I2V（即 Image to Video）框架，可将静态图像转化成精美的视频内容。其主要特点有：

　　1. 高保真度：生成视频与输入图片在细节和风格上保持一致；

　　2. 运动连贯：视频流畅无跳跃，保证时间上的连续性；

　　3. 视频帧预测：通过精确的预测来支持长时延视频序列生成；

　　4. 兼容性强：适配现有各式各样的 T2I（Text-to-image）模型；

　　5. 高语义控制力：能够针对客户特殊需求，打造个性化的视频内容。

　　AtomoVideo运用预设的 T2I 模型，在每个空间卷积层和注意力层后新增一维时空卷积和注意力模块。现有的 T2I 模型参数固定不变，它们只会训练新增的时空层，而输入的串联图像信息由 VAE 编码解析，这代表的是低层次信息，有利于提高视频对输入图像的还原度。此外，团队还使用 Cross-Attention 的方法融入高级图像语义，以加强图像语义可控性。

　　目前，该项目仅发布了论文和演示视频，尚未开放线上试用途径。另外，阿里巴巴已开启 GitHub 账号，但现在只是作为官方网站的托管地，并不包含相关代码分享。

打开APP阅读更多精彩内容