在线研讨会预告 | 多说话人语音融合——NVIDIA NeMo 代码解析

描述

多说话人语音融合任务是 TTS 语音合成当中的一个子任务,它是指将两个或者多个说话人的声音进行融合,合成出新的语音的过程,而不需要做任何进一步的微调。多说话人语音融合可以通过插值的方式代替预训练模型中原始说话人的语音。说话人语音融合技术可用于在语音合成系统中对语音进行个性化处理和生成具有特定语音特征的语音。同时允许开发者创建无限数量的说话人语音,合成出多样性的语音,可以丰富用于训练自动语音识别(ASR)和语音合成(TTS)模型的语音数据集,用于模型的训练,进而实现不同的多方言或多情感的语音 AI 的应用。

 

NVIDIA NeMo 是一个用于构建先进的对话式 AI 模型的开源工具库,它内置集成了自动语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)的模型及方法。NeMo 可以快速加载先进的预训练模型 “开箱即用”,使用模型的配置文件 “化繁为简”,进而快速完成包括多说话人语音合成在内的各类对话式 AI 子任务。

 

本次网络研讨会主要是开发人员 NLP 和语音人工智能发展的需求。

 

多说话人语音融合

NVIDIA NeMo 代码解析

英伟达

 

11 月 24 日  20:00 - 21:30

 

演讲主题

 

 

  • 多说话人语音融合的任务介绍

  • 多说话人语音融合的任务的模型

  • 多说话人语音嵌入的提取与合并

  • 使用 NeMo 结合模型进行推理

     

演讲嘉宾

 

 

英伟达

李奕澎 | NVIDIA 企业开发者社区经理

拥有多年数据分析建模、人工智能自然语言处理开发经验。在自动语音识别、自然语言处理、语音合成等对话式 AI 技术领域有丰富的实战经验与见解。曾开发法律、金融、保险文档中基于实体抽取的智能问答系统,曾开发基于 NLP 知识抽取,KG 知识图谱的建立的科研文档智能检索系统。

 

参与方式

 

 

英伟达

扫描上方二维码即刻报名

 

相关资料

 

 

英伟达

了解 NVIDIA NeMo 的更多信息

 

 


原文标题:在线研讨会预告 | 多说话人语音融合——NVIDIA NeMo 代码解析

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分