研讨会预告 | 使用 Transducer 模型优化语音识别结果

描述

在 ASR 自动语音识别领域,基于 CTC 的声学模型不再需要对训练的音频序列和文本序列进行强制对齐,实际上已经初步具备了端到端的声学模型建模能力。但是 CTC 模型进行声学建模存在着两个严重的瓶颈,一是缺乏语言模型建模能力,不能整合语言模型进行联合优化,二是 CTC 有一个不合理的假设:标签相互独立,这个基本假设与语音识别任务之间存在着一定程度的背离,因为在语言系统中存在语境的上下文关系。因此针对 CTC 的不足,Transducer 模型可以弥补这种不合理的假设,解决 CTC 的问题


3 月 9 日,NVIDIA 企业开发者社区经理李奕澎将面向有 NLP 和 Speech AI 开发需求的开发者,在本次研讨会中重点讨论 Transducer 模型,并通过代码来训练和评估 Transducer 模型。


Transducer 模型在自动语音识别中的应用 – NVIDIA NeMo 代码解析

英伟达


3 月 9 日,星期四,20:00 - 21:30


主要内容:


本次网络研讨会主要面向有 NLP 和 Speech AI 开发需求的开发者。通过本次网络研讨会,您可以获得以下信息:


  • Transducer 介绍

  • Transducer loss 的优势和局限

  • Transducer 的模型架构

  • ContextNet 的模型架构

  • Transducer 模型的训练和评估



演讲嘉宾


英伟达

李奕澎 | NVIDIA 企业开发者社区经理 

拥有多年数据分析建模、人工智能自然语言处理开发经验。在自动语音识别、自然语言处理、语音合成等对话式 AI 技术领域有丰富的实战经验与见解。曾开发法律、金融、保险文档中基于实体抽取的智能问答系统,曾开发基于 NLP 知识抽取,KG 知识图谱的建立的科研文档智能检索系统。


参与方式


英伟达

识别二维码注册本次研讨会


相关资料


英伟达

识别二维码了解 NVIDIA NeMo 更多信息



点击 “阅读原文” 或扫描下方海报二维码,即可免费注册 GTC23,在 3 月 24 日 听 OpenAI 联合创始人与 NVIDIA 创始人的炉边谈话,将由 NVIDIA 专家主持,配中文讲解和实时答疑,一起看 AI 的现状和未来!


英伟达


原文标题:研讨会预告 | 使用 Transducer 模型优化语音识别结果

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分