Mozilla的新开源模型将会彻底改变语音识别

独爱72H 2020-03-23 782

音视频及家电

749人已加入

描述

（文章来源：华夏模具网）

您可能已经注意到，语音识别技术在最近几年取得了稳定和肯定的进步 -所有大型技术公司都希望在这一领域取得长足进步，即使只是为了改善从Cortana到Siri 的数字助理也是如此-但是Mozilla希望更加努力，并且更广泛地说，在这方面，开源语音识别模型已经发布。

根据Mozilla机器学习团队所做的工作，此自动语音识别引擎的最初版本刚刚发布。该引擎以百度发表的“深度演讲”论文为模型，该论文详细介绍了可训练的多层深度神经网络。Mozilla说，其项目最初的目标是使“单词错误率”低于10%。然而，该公司表示，LibriSpeech的测试清洁套件上的引擎字词错误率现在为6.5%，明显超过了这一目标，并达到了接近人类水平的圣杯(据Deep报道，该比率约为5.8%)演讲2论文)。

Mozilla一直在努力使用“监督学习”和数千小时的带标记音频的巨大数据集来训练语音识别模型，该数据集来自包括免费(TED-LIUM和LibriSpeech)和付费(Fisher和Switchboard)语音在内的各种方式语料库。

带有标签的语音数据进一步从大学，公共电视台和广播电台的语言学习部门等机构中获取，所有这些数据为磨练语音识别引擎提供了更多动力。当然，该项目的巨大优势(其开源性质)意味着这种经过磨练的技术现在对任何人开放用于其语音识别项目。

Mozilla进一步指出，未来的计划是发布一种既轻便又快速的模型，使其能够在智能手机或Raspberry Pi等单板计算机上运行。该公司还推出了“公共语音”计划，该计划是一个开放的，公开可用的语音数据集，其中包含来自20,000位不同说话者的大约40万条录音-代表大约500个小时的语音。

正如Mozilla所说，这里的想法是“与新的语音识别模型并行运行”，构建一个语音库，该语料库是免费的，开源的，并且足够大以创建有意义的产品。微软还在语音识别方面取得了长足的进步，如今年夏天宣布的那样，在Switchboard语音识别基准测试中，单词错误率达到了5.1%。
（责任编辑：fqj）

打开APP阅读更多精彩内容