传音AI技术部在ASRU 2023 MADASR低资源语音识别比赛斩获多项佳绩

传音控股 2023-12-21 999

描述

国际顶级语音会议ASRU 2023（IEEE Workshop on Automatic Speech Recognition and Understanding，简称ASRU）于12月16日-20日顺利举办。传音AI技术部在ASRU 2023 MADASR（Model ADaptation for ASR in low-resource Indian languages，简称MADASR）关于孟加拉语和博杰普尔语的低资源语音识别比赛中斩获多项佳绩，在受限和非受限的4个赛道、2个语种与WER、CER 2个评价指标共16个细分子赛道上获得2个第一名、6个第二名和5个第三名。

ASRU研讨会是语音与语言处理学术圈的顶级会议，由IEEE语音和语言处理技术委员会主办，每两年举行一次，历史悠久，影响广泛。此次MADASR比赛是ASRU 2023的重要赛事，由IBM、布尔诺理工大学、微软研究院、爱丁堡大学和印度科学研究所举办，旨在以孟加拉语和博杰普尔语为例，探索低资源语言的语音识别难题。比赛吸引了中科院自动化所、爱沙尼亚塔林理工大学、印度坎普尔理工学院、印度科学研究所-马德拉斯语音实验室、印度科学研究所-孟买数字音频处理实验室、印度浦那高级计算发展中心等多家国内外知名高校和研究机构参赛。

自动语音识别（Automatic Speech Recognition，简称ASR）主要用于将人类语音转换为计算机可读的文本或命令，实现人机交互和自然语言处理。近年来，得益于基于自监督学习的声学模型（如 wav2vec2）和大规模多语言训练（如 Whisper），自动语音识别性能大幅提高，然而低资源语言由于音频和文本数据有限，仍面临巨大的挑战。

在ASRU 2023 MADASR比赛中，传音AI技术部开发的语音识别系统，在算法层面使用了两种方案，一种是基于U2（Unified-2 pass）框架的编码器和解码器结构，使用短时连接分类（Connectionist Temporal Classification）和注意力重打分（Attention Rescore）；另一种是基于Whisper的改进和微调的结构。该系统显著提升了低资源语言语音识别的准确性和效率，克服了语音数据的稀缺难题，其解决方案将为其他低资源语言提供参考。

ai技术

据Ethnologue网站统计，世界上有7000多种语言，其中90%的语种使用人数少于10万人，不同语种尤其是小语种之间的沟通交流仍面临极大挑战。传音长期深耕新兴市场，面对新兴市场智能语音技术空白，不断加强多语种数据建设，开发小语种语音识别、语义理解、知识图谱、语音合成等算法模型，除了提供多语种语音转写的服务能力，未来还将提供大语言模型生成式交互和跨语种翻译能力，使不同语种之间的交流更顺畅，让更多的小语种使用群体受益。

传音始终以新兴市场的消费者为中心，重视新兴市场用户的需求。未来，传音将继续结合行业技术发展趋势和本地消费者洞察，在AI技术研究和智能终端应用领域发力，通过技术为用户、为社会创造更多价值，让尽可能多的人尽早享受科技和创新带来的美好生活。

打开APP阅读更多精彩内容