Mozilla的新开源模型将会彻底改变语音识别

音视频及家电

734人已加入

描述

(文章来源:华夏模具网)

您可能已经注意到,语音识别技术在最近几年取得了稳定和肯定的进步 -所有大型技术公司都希望在这一领域取得长足进步,即使只是为了改善从Cortana到Siri 的数字助理也是如此-但是Mozilla希望更加努力,并且更广泛地说,在这方面,开源语音识别模型已经发布。

根据Mozilla机器学习团队所做的工作,此自动语音识别引擎的最初版本刚刚发布。该引擎以百度发表的“深度演讲”论文为模型,该论文详细介绍了可训练的多层深度神经网络。Mozilla说,其项目最初的目标是使“单词错误率”低于10%。然而,该公司表示,LibriSpeech的测试清洁套件上的引擎字词错误率现在为6.5%,明显超过了这一目标,并达到了接近人类水平的圣杯(据Deep报道,该比率约为5.8%)演讲2论文)。

Mozilla一直在努力使用“监督学习”和数千小时的带标记音频的巨大数据集来训练语音识别模型,该数据集来自包括免费(TED-LIUM和LibriSpeech)和付费(Fisher和Switchboard)语音在内的各种方式语料库。

带有标签的语音数据进一步从大学,公共电视台和广播电台的语言学习部门等机构中获取,所有这些数据为磨练语音识别引擎提供了更多动力。当然,该项目的巨大优势(其开源性质)意味着这种经过磨练的技术现在对任何人开放用于其语音识别项目。

Mozilla进一步指出,未来的计划是发布一种既轻便又快速的模型,使其能够在智能手机或Raspberry Pi等单板计算机上运行。该公司还推出了“公共语音”计划,该计划是一个开放的,公开可用的语音数据集,其中包含来自20,000位不同说话者的大约40万条录音-代表大约500个小时的语音。

正如Mozilla所说,这里的想法是“与新的语音识别模型并行运行”,构建一个语音库,该语料库是免费的,开源的,并且足够大以创建有意义的产品。微软还在语音识别方面取得了长足的进步,如今年夏天宣布的那样,在Switchboard语音识别基准测试中,单词错误率达到了5.1%。
      (责任编辑:fqj)

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分