阿里巴巴发布AtomoVideo,兼容多款文生图模型的高保真图像视频框架

描述

  据披露,阿里巴巴研发部门近期推出了一款名为 AtomoVideo 的高保真 I2V(即 Image to Video)框架,可将静态图像转化成精美的视频内容。其主要特点有:

  1. 高保真度:生成视频与输入图片在细节和风格上保持一致;

  2. 运动连贯:视频流畅无跳跃,保证时间上的连续性;

  3. 视频帧预测:通过精确的预测来支持长时延视频序列生成;

  4. 兼容性强:适配现有各式各样的 T2I(Text-to-image)模型;

  5. 高语义控制力:能够针对客户特殊需求,打造个性化的视频内容。

  AtomoVideo运用预设的 T2I 模型,在每个空间卷积层和注意力层后新增一维时空卷积和注意力模块。现有的 T2I 模型参数固定不变,它们只会训练新增的时空层,而输入的串联图像信息由 VAE 编码解析,这代表的是低层次信息,有利于提高视频对输入图像的还原度。此外,团队还使用 Cross-Attention 的方法融入高级图像语义,以加强图像语义可控性。

  目前,该项目仅发布了论文和演示视频,尚未开放线上试用途径。另外,阿里巴巴已开启 GitHub 账号,但现在只是作为官方网站的托管地,并不包含相关代码分享。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分