使用Riva自定义文本创建语音界面

星星科技指导员 2022-03-31 1558

描述

NVIDIA 在 Riva 中发布了西班牙语、德语和俄语的世界级语音到文本模型，为企业在全球部署语音 AI 应用提供了动力。此外，企业现在可以使用 Riva 的可定制文本到语音管道创建富有表现力的语音界面。

NVIDIA Riva 是一款 GPU 加速语音 AI SDK ，用于开发实时应用程序，如实时字幕、向基于文本的聊天机器人添加语音，以及在呼叫中心生成实时转录。为了便于实施， Riva 在 NGC 目录中提供了高度精确的预训练模型。

和 TAO 工具包，这些模型可以为任何行业定制，包括电信、金融、统一通信即服务和医疗保健。开发者可以使用 Riva 开箱即用地部署这些模型。它们经过优化，可以在云、数据中心和边缘在不到 300 毫秒的时间内实时运行。

Riva 发布亮点包括

西班牙语、德语和俄语的世界级语音识别技能。

可定制的文本到语音管道，用于表达性互动。

TAO 工具包的低代码微调工作流。

多种语言的自动语音识别

从呼叫中心到虚拟助手，每一个对话人工智能应用程序都严重依赖于自动语音识别。企业可以通过 Riva 英语、西班牙语、德语和俄语的自动语音识别在全球范围内扩展这些应用程序。

图 1:NVIDIA Riva 世界级的自动语音识别系统有英语、西班牙语、德语和俄语版本。

非英语自动语音识别模型是在各种开源数据集（如 Mozilla Common Voice ）以及私有数据集上训练的。 Riva 开发自动语音识别模型是为了提供开箱即用的准确度，并作为适应行业、行话、方言甚至嘈杂环境的良好起点。在流行的评估数据集上，这些模型在多个行业应用中提供了世界级的准确性。

可定制的文本到语音管道

为了让客户享受逼真的对话，语音应用程序必须提供类似人类的表情。使用 FASTROPE ，NVIDIA 语音 AI 研究小组创建的新模型 Riva 帮助开发者定制文本到语音管道并创建表达性语音接口。例如，在推理过程中，开发人员可以使用 SSML 标签改变语音音调和速度。

图 2:NVIDIA Riva 提供了可定制的文本到语音管道，用于更具表现力的交互。

最新的最先进的模型，比如里瓦的 Fastpitch ，帮助文本到语音管道的运行速度比市场上其他竞争对手快几倍。

关于作者

About Gordana Neskovic

Gordana Neskovic 是AI/DL产品营销团队的成员，负责 NVIDIA Maxine。在加入 NVIDIA 之前，Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor担任过各种产品营销、数据科学家、AI架构师和工程职位。她拥有博士学位。圣塔 Clara 大学，塞尔维亚贝尔格莱德大学电气工程硕士和学士学位。

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技术产品营销经理，专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位，是国家科学基金会大学习中心的研究生助理。

审核编辑：郭婷

打开APP阅读更多精彩内容