字节跳动发布OmniHuman 多模态框架

麦辣鸡腿堡 2025-02-07 1270

描述

　　2 月 6 日消息，字节跳动近日发布了一项重大成果 ——OmniHuman 多模态框架，其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片，再结合一段输入音频，就能生成栩栩如生的人物视频。

　　与传统 AI 模型不同，OmniHuman-1 能够生成逼真的全身动画，并且可以精准地将手势和面部表情与语音或音乐同步，打破了以往只能生成面部或上半身动画的局限。

　　基于约 19000 小时的人类运动数据训练，OmniHuman-1 模型支持不同的体型和画面比例，能在内存限制内生成任意长度的视频，并适应不同输入信号，在真实性和准确性方面超越其他同类动画工具。值得一提的是，它还支持卡通角色、人工物体、动物以及复杂姿势的输入，确保生成的动作特征与每种风格的独特特点相匹配。

　　在实际应用场景中，OmniHuman 潜力巨大。在影视制作领域，创作者能轻松为虚拟角色打造全身动作戏份；虚拟直播里，主播动作更加自然，可增强直播的趣味性与吸引力；游戏世界中，数字人 NPC 的动作和表情更丰富，能提升玩家的沉浸感。

打开APP阅读更多精彩内容