传音AI技术部在ASRU 2023 MADASR低资源语音识别比赛斩获多项佳绩

描述

国际顶级语音会议ASRU 2023(IEEE Workshop on Automatic Speech Recognition and Understanding,简称ASRU)于12月16日-20日顺利举办。传音AI技术部在ASRU 2023 MADASR(Model ADaptation for ASR in low-resource Indian languages,简称MADASR)关于孟加拉语和博杰普尔语的低资源语音识别比赛中斩获多项佳绩,在受限和非受限的4个赛道、2个语种与WER、CER 2个评价指标共16个细分子赛道上获得2个第一名、6个第二名和5个第三名。

ASRU研讨会是语音与语言处理学术圈的顶级会议,由IEEE语音和语言处理技术委员会主办,每两年举行一次,历史悠久,影响广泛。此次MADASR比赛是ASRU 2023的重要赛事,由IBM、布尔诺理工大学、微软研究院、爱丁堡大学和印度科学研究所举办,旨在以孟加拉语和博杰普尔语为例,探索低资源语言的语音识别难题。比赛吸引了中科院自动化所、爱沙尼亚塔林理工大学、印度坎普尔理工学院、印度科学研究所-马德拉斯语音实验室、印度科学研究所-孟买数字音频处理实验室、印度浦那高级计算发展中心等多家国内外知名高校和研究机构参赛。

自动语音识别(Automatic Speech Recognition,简称ASR)主要用于将人类语音转换为计算机可读的文本或命令,实现人机交互和自然语言处理。近年来,得益于基于自监督学习的声学模型(如 wav2vec2)和大规模多语言训练(如 Whisper),自动语音识别性能大幅提高,然而低资源语言由于音频和文本数据有限,仍面临巨大的挑战。

在ASRU 2023 MADASR比赛中,传音AI技术部开发的语音识别系统,在算法层面使用了两种方案,一种是基于U2(Unified-2 pass)框架的编码器和解码器结构,使用短时连接分类(Connectionist Temporal Classification)和注意力重打分(Attention Rescore);另一种是基于Whisper的改进和微调的结构。该系统显著提升了低资源语言语音识别的准确性和效率,克服了语音数据的稀缺难题,其解决方案将为其他低资源语言提供参考。

ai技术

 

ai技术

据Ethnologue网站统计,世界上有7000多种语言,其中90%的语种使用人数少于10万人,不同语种尤其是小语种之间的沟通交流仍面临极大挑战。传音长期深耕新兴市场,面对新兴市场智能语音技术空白,不断加强多语种数据建设,开发小语种语音识别、语义理解、知识图谱、语音合成等算法模型,除了提供多语种语音转写的服务能力,未来还将提供大语言模型生成式交互和跨语种翻译能力,使不同语种之间的交流更顺畅,让更多的小语种使用群体受益。

传音始终以新兴市场的消费者为中心,重视新兴市场用户的需求。未来,传音将继续结合行业技术发展趋势和本地消费者洞察,在AI技术研究和智能终端应用领域发力,通过技术为用户、为社会创造更多价值,让尽可能多的人尽早享受科技和创新带来的美好生活。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分