NVIDIA 在 Riva 中发布了西班牙语、德语和俄语的世界级语音到文本模型,为企业在全球部署语音 AI 应用提供了动力。此外,企业现在可以使用 Riva 的可定制文本到语音管道创建富有表现力的语音界面。
NVIDIA Riva 是一款 GPU 加速语音 AI SDK ,用于开发实时应用程序,如实时字幕、向基于文本的聊天机器人添加语音,以及在呼叫中心生成实时转录。为了便于实施, Riva 在 NGC 目录中提供了高度精确的预训练模型。
和 TAO 工具包 ,这些模型可以为任何行业定制,包括电信、金融、统一通信即服务和医疗保健。开发者可以使用 Riva 开箱即用地部署这些模型。它们经过优化,可以在云、数据中心和边缘在不到 300 毫秒的时间内实时运行。
Riva 发布亮点包括
西班牙语、德语和俄语的世界级语音识别技能。
可定制的文本到语音管道,用于表达性互动。
TAO 工具包的低代码微调工作流。
多种语言的自动语音识别
从呼叫中心到虚拟助手,每一个对话人工智能应用程序都严重依赖于自动语音识别。企业可以通过 Riva 英语、西班牙语、德语和俄语的自动语音识别在全球范围内扩展这些应用程序。
图 1:NVIDIA Riva 世界级的自动语音识别系统有英语、西班牙语、德语和俄语版本。
非英语自动语音识别模型是在各种开源数据集(如 Mozilla Common Voice )以及私有数据集上训练的。 Riva 开发自动语音识别模型是为了提供开箱即用的准确度,并作为适应行业、行话、方言甚至嘈杂环境的良好起点。在流行的评估数据集上,这些模型在多个行业应用中提供了世界级的准确性。
可定制的文本到语音管道
为了让客户享受逼真的对话,语音应用程序必须提供类似人类的表情。使用 FASTROPE ,NVIDIA 语音 AI 研究小组创建的新模型 Riva 帮助开发者定制文本到语音管道并创建表达性语音接口。例如,在推理过程中,开发人员可以使用 SSML 标签改变语音音调和速度。
图 2:NVIDIA Riva 提供了可定制的文本到语音管道,用于更具表现力的交互。
最新的最先进的模型,比如里瓦的 Fastpitch ,帮助文本到语音管道的运行速度比市场上其他竞争对手快几倍。
关于作者
About Gordana Neskovic
Gordana Neskovic 是AI/DL产品营销团队的成员,负责 NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor担任过各种产品营销、数据科学家、AI架构师和工程职位。她拥有博士学位。圣塔 Clara 大学,塞尔维亚贝尔格莱德大学电气工程硕士和学士学位。
About Sirisha Rella
Sirisha Rella 是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。
审核编辑:郭婷
全部0条评论
快来发表一下你的评论吧 !