Omniverse Audio2Face加速AI虚拟数字人的语音与表情训练

丽台科技 2022-11-15 4405

描述

元宇宙热潮迭起，推动了虚拟数字人产业发展。当前，随着虚拟人技术日益成熟，相关产业链逐渐成型，以及虚拟人的智能化、多元化应用不断完善，数智人发展逐渐成为行业趋势。

深圳幻影未来信息科技有限公司（以下简称“幻影未来”）专注于虚拟人互动的内容研发，是领先的虚拟人及互动方案、AI 数智人创新提供商。借助 NVIDIA Omniverse Audio2Face 和 NVIDIA RTX GPU，幻影未来加速虚拟人 Kiko 的语音及表情训练，助力打造高品质 AI 数智人。

虚拟人语音互动与表情变化仍需优化

虚拟现实技术的演进和虚拟人行业的逐步发展，带动直播、电商、娱乐行业等逐渐开展虚拟人产业布局。幻影未来从虚拟人直播入手，蓄力将虚拟人 Kiko 打造成虚拟人 IP。由于目前虚拟人主播与观众之间的沟通场景仍需丰富，幻影未来立足技术背景，着力开展虚拟人的技术升级。

利用现有技术，虚拟人主播可实现语音输入输出及相应动画展示，但仍缺乏相应的互动力和表现力，因此，在语音互动和表达的基础上，驱动虚拟人产生丰富而逼真的表情以提升与用户之间的沟通水平、加强虚拟人与用户间的情感交流仍是行业发展的痛点。

Omniverse Audio2Face + RTX GPU

加速虚拟人训练与升级

幻影未来通过 NVIDIA 初创加速计划了解到，借助 NVIDIA Omniverse Audio2Face 可以直接将虚拟人语音转换为嘴型和表情动画，其在使用和测试后，对输出的表情 BS 进行改造并训练自定义模型，同时借助 NVIDIA RTX GPU，加速对虚拟人训练大量数据的交换与处理。

Omniverse Audio2Face 是一款由 AI 提供技术支持的应用，仅凭借一个音频来源便能生成面部表情动画。Audio2Face 可简化 3D 角色的动画制作，与任何配音音轨匹配，在交互式应用场景中可以使用该应用，也可将其用作传统的面部动画创作工具，实时运行结果或烘焙结果都可轻松获得。借助 Omniverse Audio2Face，幻影未来只需录制语音音轨，输入到该应用中，即可生成生动的虚拟人面部表情。

虚拟人模型训练包括数据采集和清洗、数据处理和数据训练，训练过程中数据量庞大，对数据处理能力要求较高，幻影未来借助 RTX GPU，相较于常规硬件训练方法而言，训练时间可缩短至 10 分钟左右，训练速度提高了 99% 以上。

数智人服务场景拓宽

元宇宙基础服务潜力无限

NVIDIA Omniverse Audio2Face 与 NVIDIA GPU 加速平台赋能幻影未来实现虚拟人语音和表情动画升级，使传统虚拟人向数智人的升级成为了可能。幻影未来的虚拟人表现力解决方案助力丰富数智人服务场景，推动了元宇宙基础服务的丰富和发展。

幻影未来创始人兼 CTO 姜龙表示，“未来元宇宙中的应用软件一定不是以 APP 形式展现，也一定不会是需要通过点击操控 UI 的形式出现，我相信未来元宇宙中的所有服务是以数智虚拟人形式出现，通过自然交互的方式来进行，这一天不会太远。”

审核编辑：李倩

打开APP阅读更多精彩内容