「揭秘」Speech AI 技术发展与前沿应用

NVIDIA英伟达企业解决方案 2022-11-10 1833

描述

Speech AI 线上技术研讨会

精彩议程抢先看

自二十世纪下半叶第一个基于计算机的语音合成系统诞生，至以隐马尔可夫模型为代表的统计机器学习合成语音占据主流，再到近十年来基于神经网络的语音合成快速发展，计算机语音合成技术如今已能媲美真人发声，并走向大规模的商业化落地阶段。

Gartner 技术成熟度曲线表明，语音识别和语音合成技术如今已经达到稳步爬升恢复期和生产成熟期。国内的智能语音市场也形成了比较成熟的格局，智能语音科技企业和互联网企业成为主导。因此，要实现差异化竞争，企业也在纷纷思考如何从单一的智能语音技术提供商转型为提供全方位的人工智能技术和应用的服务商。此外，尽管技术已经趋近成熟，门槛大大降低，开发和运行可落地的语音人工智能服务仍然是一项复杂而艰巨的任务，通常需要面临实时性、可理解性、自然性、低资源、鲁棒性等挑战。

在智能语音市场的竞争格局中，一大空缺是算法、通用类芯片和云端 AI 芯片。借助以 GPU 为代表的通用类芯片上的技术优势，NVIDIA 进军了智能语音领域。基于自动语音识别（ ASR ）和语音合成（ TTS ），NVIDIA Riva 简化了开发语音 AI 服务的端到端流程，并为语音交互提供实时性能。此外，包括 NVIDIA TensorRT 和 Triton 推理服务器在内的诸多 NVIDIA 技术也帮助各种 Speech AI 工作负载进行大幅的降本增效。不论是 AI 呼叫中心、虚拟主力语音接口，还是视频会议中的实时字幕等应用，NVIDIA GPU 及 NVIDIA 加速技术都在帮助用户进一步为技术落地降低门槛，为自动驾驶、医疗等场景的智能语音应用创新赋能。

2022 年 10 月 25 日和 27 日，NVIDIA 在 DataFun 直播间，举办 Speech AI 线上技术研讨会，由资深专家介绍 NVIDIA NeMo / RIVA 构建语音应用的工作流、GPU 加速和部署 Speech AI 任务全流程的最佳实践，更荣幸邀请到了 WeNet 开源社区发起人为我们分享 WeNet 社区的最新技术进展。

议题介绍

★

NVIDIA NeMo 工具介绍，以及如何利用 NeMo 进行语音相关任务的训练

NeMo 是 NVIDIA 推出的一款主打GPU 训练的工具，可以支持常见的 Speech AI 相关的任务，例如ASR、NLP、TTS、Speaker Recognition 等。将以中文语音识别为例，介绍如何利用 NeMo 快速地完成该任务的训练。同时也会介绍 NeMo 中目前已有的一些功能，例如 VAD、说话人日志等。

通过本次演讲您将收获以下内容：

如果利用 NeMo 训练 ASR 模型？
NeMo 对中文语音任务的支持有哪些？
NeMo 支持其他哪些 Speech processing 的任务？

演讲嘉宾

丁文 NVIDIA 解决方案架构师

毕业于上海交通大学，导师为俞凯教授。毕业后曾就职于头部互联网公司语音交互部门，主要负责流式 ASR 的迭代与优化、粤语 ASR 等。目前就职于 NVIDIA，负责 Riva 中文 ASR 模型迭代，中文 ASR 模型 GPU 部署方案落地与优化等。

★

使用 NVIDIA Riva 部署企业级 ASR 服务

NVIDIA Riva 提供了最先进的 GPU 优化部署解决方案，用于构建和部署完全可定制的实时语音识别服务，用于诸如呼叫中心代理协助、虚拟助理、数字化身、品牌语音和视频会议转录等应用程序。

本次分享将为大家介绍 NVIDIA Riva 的主要特性，包括高精度的预训练语音模型，高性能推理模型，以及高可扩展的推理服务。

通过本次演讲您将收获以下内容：

如何使用 NVIDIA Riva 在 GPU 上快速部署语音识别服务？
Riva 是如何针对 GPU 进行优化加速的？
怎样进行定制化达到更好的语音识别精度？

演讲嘉宾

齐家兴 NVIDIA 解决方案架构师

德国亚琛工业大学博士，目前于英伟达企业解决方案部门担任高级架构师，多年来从事自然语言处理和语音识别等方向研究，助力多家企业基于 GPU 平台实现高效易用的训练和推理平台。他是英伟达 NeMo，Riva 语音识别训练推理平台的中文模型开发者之一。

★

利用 Triton Inference Server 和 TensorRT 加速语音 AI 在云端的运行效率

演讲将主要介绍云上部署端到端 ASR 服务最佳实践以及云上部署端到端 TTS 服务最佳实践。

通过本次演讲您还将收获以下内容：

了解如何加速语音 AI 模型
了解如何节省语音 AI 服务的部署成本

演讲嘉宾

刘川 NVIDIA 资深解决方案架构师

NVIDIA 中文语音解决方案主要负责人，对基于 GPU 的语音识别和语音合成在云上的部署有丰富经验。

★

WeNet 在 Speech AI 的应用与探索

演讲将主要介绍开源极简史、语音开源简史、WeNet 开源社区以及基于 GPU 的语音识别实践。

通过本次演讲您将收获以下内容：

了解 WeNet 开源社区

WeNet 社区中如何支持和使用 GPU

演讲嘉宾

张彬彬 WeNet 开源社区发起人

硕士毕业于西北工业大学音频语音与语音处理研究组。WeNet 开源社区发起人，主导了业界领先的开源端到端语音识别项目 WeNet 和大规模多领域中文语音识别开源数据集 WenetSpeech 的开发。现任地平线语音算法专家，曾先后在微软、出门问问等公司从事语音识别算法和产品研发。

参与方式

精彩连续，点击“阅读原文”或扫描下方海报二维码，马上注册预约！

原文标题：「揭秘」Speech AI 技术发展与前沿应用

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

打开APP阅读更多精彩内容