抢先体验 AI 微服务在云端提供的优质通信。
新版 NVIDIA Maxine 为实时音频和视频通信铺平了道路。无论是参加视频会议、致电客户服务中心,还是进行直播,Maxine 都能够助您实现清晰明确的沟通,增强虚拟交互的效果。
NVIDIA Maxine 是一套由 GPU 加速的 AI 软件开发套件 (SDK) 和云原生微服务,用于部署经过优化和加速的 AI 功能,可达到实时增强音频、视频和增强现实 (AR) 效果的目的。
借助 Maxine 的先进模型,最终用户无需使用昂贵的设备即可改进音频和视频质量。基于 NVIDIA AI 的技术使标准的麦克风和摄像头设备也能够达到这些高质量的效果。
在 GTC 上,NVIDIA 宣布为云原生微服务重新构建 Maxine,并推出了 Maxine 音频效果微服务的抢先体验版。此外,还推出了新的 Maxine SDK 功能,包括发言者聚焦和人脸表情估计,并正式推出了眼神交流功能。NVIDIA Maxine 现在还包含现有 SDK 功能的增强版。
Maxine 实现云原生
Maxine 的云原生微服务允许开发者构建实时 AI 应用。微服务可以独立管理,并在云端进行无缝部署,从而缩短开发周期。
抢先体验版的 Audio Effects 微服务中包含四种先进的音频功能:
背景噪音消除:使用 AI 模型消除多种常见的背景噪音,同时保留说话者的自然声音。
房间回声消除:使用 AI 模型消除音频中的混响,恢复说话者声音的清晰度。
音频超高分辨率:提高音频信号的时间分辨率,改善音频质量。该功能目前支持 8 kHz 到 16 kHz 以及 16 kHz 到 48 kHz 的上采样。
声学回声消除:消除输入音频流中的实时声学设备回声,从而去除不匹配的声对和双声。借助基于 AI 的技术,Maxine 实现了比传统数字信号处理算法更有效的回声消除。
Pexip 是一家领先的企业视频会议和协作解决方案提供商,正在利用 NVIDIA 的 AI 技术将虚拟会议提升到更高水平,为现代员工队伍提供先进的功能。
Pexip 战略联盟高级副总裁 Eddie Clifton 表示:“随着 Maxine 向云原生微服务的转化,我们能够更加轻松地将 NVIDIA 的先进 AI 技术与我们独特的服务器端架构结合起来。这使我们的 Pexip 团队能够为虚拟会议提供更强的体验。”
探索 SDK 的增强功能
Maxine 提供了三款由 GPU 加速的 SDK,能够通过 AI 重塑实时通信的音频、视频和 AR 效果。
音频效果 SDK 可提供多效果、低延迟,以及基于 AI 的音频质量增强算法。发言者聚焦是抢先体验版中的新功能,该功能能够分离前景和背景发言者的音轨,使听众能够更加轻松地识别每种声音。此外,还更新了音频超高分辨率 SDK 功能,使其具备更高的质量。
视频效果 SDK 会使用标准网络摄像头输入创建基于 AI 的视频效果。虚拟背景功能已获得更新,增强了时间稳定性,该功能能够分割个人形象并应用由 AI 驱动的背景去除、替换或模糊功能。
AR SDK 基于标准网络摄像头馈送,提供基于 AI 的实时 3D 面部追踪和身体姿态估计。新功能包括:
眼神交流:通过预估和将视线与摄像头对齐来模拟眼神交流。
人脸表情估计:追踪人脸并推断主体所呈现的表情。
更新了以下 AR 功能:
身体姿态估计:以 2D 和 3D 形式预测和追踪人体的 34 个关键点,并且现已支持多人追踪。
面部特征点追踪:使用 126 个关键点来识别面部特征和轮廓。现已可使用“画质”模式来追踪由于头部运动和表情造成的头部姿势和面部变形(实时追踪的自由度为 3 度),实现了更高质量的跟踪效果。
人脸网格:以高达 3000 个顶点和 6 个自由度的 3D 网格表示人脸,并且现在包括 USC 创意技术研究所的 3D 可变形模型。
直接体验 Maxine 的惊艳效果。
体验由 AI 的强大功能带来的先进效果
Maxine SDK 和微服务可为您提供一套低延迟的 AI 效果,且可与现有的客户基础设施进行集成。由于 Maxine 的尖端 AI 功能的构建以 NVIDIA AI 平台为基础,并且拥有领先的预训练模型,所以开发者用户可利用其来创建、定制和部署优质的音频和视频质量功能。
Maxine 也是 NVIDIA Omniverse Avatar Cloud Engine 的一部分,NVIDIA Omniverse Avatar Cloud Engine 是一系列基于云的 AI 模型和服务,可供开发者构建、定制和部署交互式虚拟形象。Maxine 的可定制云原生微服务允许您在 AI 效果制作流程中进行独立部署。而且,您可以在本地、云端或边缘部署 Maxine。
审核编辑:汤梓红
全部0条评论
快来发表一下你的评论吧 !