2 月 6 日消息,字节跳动近日发布了一项重大成果 ——OmniHuman 多模态框架,其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片,再结合一段输入音频,就能生成栩栩如生的人物视频。
与传统 AI 模型不同,OmniHuman-1 能够生成逼真的全身动画,并且可以精准地将手势和面部表情与语音或音乐同步,打破了以往只能生成面部或上半身动画的局限。
基于约 19000 小时的人类运动数据训练,OmniHuman-1 模型支持不同的体型和画面比例,能在内存限制内生成任意长度的视频,并适应不同输入信号,在真实性和准确性方面超越其他同类动画工具。值得一提的是,它还支持卡通角色、人工物体、动物以及复杂姿势的输入,确保生成的动作特征与每种风格的独特特点相匹配。
在实际应用场景中,OmniHuman 潜力巨大。在影视制作领域,创作者能轻松为虚拟角色打造全身动作戏份;虚拟直播里,主播动作更加自然,可增强直播的趣味性与吸引力;游戏世界中,数字人 NPC 的动作和表情更丰富,能提升玩家的沉浸感。
全部0条评论
快来发表一下你的评论吧 !