微软与浙大开发新AI模型,解决语音助手卡顿问题

音视频及家电

734人已加入

描述

(文章来源:雷锋网)

目前,Google Assistant 语音助手及最近出现在 Alexa 和 Amazon Polly 服务中的新闻播音员的语音乍听上去几乎与人声无异。事实上,这些语音助手都是由文本-语音模型提供支持的。

在当下,基于神经网络的端到端文本-语音合成技术发展迅速,大多数模型的合成方法为:从文本生成梅尔谱(Mel-Spectrogram,即一种展示声音功率的光谱图),然后使用声码器(分析和合成语音信号的编解码器)合成语音。

但是,这种合成方法存在着一些不可避免的问题,主要包括:速度慢:端到端模型通常以自回归方式生成梅尔谱,再通过声码器合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢;稳定性差:序列生成的错误传播及注意力对齐不准,会导致出现重复吐词或漏词现象;缺乏可控性:自回归的神经网络模型自动决定一条语音的生成长度,不易控制语速或韵律停顿等。

为解决这些问题,微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种新的机器学习模型 FastSpeech,并在论文《FastSpeech:快速、强大且可控的文本-语音模型》中详细介绍了该模型。另外,值得一提的是,该论文已被温哥华 NeurIPS 2019 会议录用。

与其他文本-语音模型相比,FastSpeech 模型架构较为独特,且有着更佳的性能(其梅尔谱生成速度比基线快 270 倍,语音生成速度比基线快 38 倍)。不仅如此,它还能够避免了单词跳过等错误,还支持精细调整语速和单词中断。

更为重要的是,FastSpeech 包含长度调节器,可协调梅尔谱序列和音素序列(即感知度不同的声音单位)之间的差异。

简单来讲,由于音素序列的长度总是小于梅尔谱序列长度,一个音素对应多个梅尔谱。而长度调节器会根据持续时间,扩展音素序列以匹配梅尔谱序列长度(一个补充时长预测器组件确定一个音素的时长)。 增加或减少与音素或音素持续时间匹配的梅尔谱数目,可成比例地调整语音速度。

为验证 FastSpeech 的有效性,研究人员将其与开源的 LJ Speech 数据集进行了对比,该数据集包含 13100 个英语音频片段(相当于 24 个小时的音频)和相应的文本转录。在将数据集随机分成用于训练的 12500 个样本、用于验证的 300 个样本和用于测试的 300 个样本后,他们对语音质量、稳定性等进行了一系列评估。

论文中,研究团队主要从语音质量(audio quality)、生成速度(inference speedup)、稳定性(robustness)和可控性(controllability)等方面评估 FastSpeech 模型的性能。

研究团队表示,FastSpeech 的质量几乎与谷歌的 Tacotron 2 文本-语音模型相当,在稳定性上轻松超过主流的 Transformer 模型。同时,与基线的 34% 有效错误率相比,FastSpeech 的有效错误率为零。(但不可否认的是,其稳定性测试只涉及 50 个语义复杂的句子) 此外,FastSpeech 能在保持准确度的前提下,将生成的语音速度从 0.5 倍变为 1.5 倍。

因此,研究团队表示,FastSpeech 兼具快速、鲁棒、可控等特点。论文的最后,研究团队也提到,未来将把 FastSpeech 和速度更快的声码器组合成单一模型,提供完全端到端的文本-语音解决方案。
      (责任编辑:fqj)

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分