音视频及家电
(文章来源:华夏模具网)
您可能已经注意到,语音识别技术在最近几年取得了稳定和肯定的进步 -所有大型技术公司都希望在这一领域取得长足进步,即使只是为了改善从Cortana到Siri 的数字助理也是如此-但是Mozilla希望更加努力,并且更广泛地说,在这方面,开源语音识别模型已经发布。
根据Mozilla机器学习团队所做的工作,此自动语音识别引擎的最初版本刚刚发布。该引擎以百度发表的“深度演讲”论文为模型,该论文详细介绍了可训练的多层深度神经网络。Mozilla说,其项目最初的目标是使“单词错误率”低于10%。然而,该公司表示,LibriSpeech的测试清洁套件上的引擎字词错误率现在为6.5%,明显超过了这一目标,并达到了接近人类水平的圣杯(据Deep报道,该比率约为5.8%)演讲2论文)。
Mozilla一直在努力使用“监督学习”和数千小时的带标记音频的巨大数据集来训练语音识别模型,该数据集来自包括免费(TED-LIUM和LibriSpeech)和付费(Fisher和Switchboard)语音在内的各种方式语料库。
带有标签的语音数据进一步从大学,公共电视台和广播电台的语言学习部门等机构中获取,所有这些数据为磨练语音识别引擎提供了更多动力。当然,该项目的巨大优势(其开源性质)意味着这种经过磨练的技术现在对任何人开放用于其语音识别项目。
Mozilla进一步指出,未来的计划是发布一种既轻便又快速的模型,使其能够在智能手机或Raspberry Pi等单板计算机上运行。该公司还推出了“公共语音”计划,该计划是一个开放的,公开可用的语音数据集,其中包含来自20,000位不同说话者的大约40万条录音-代表大约500个小时的语音。
正如Mozilla所说,这里的想法是“与新的语音识别模型并行运行”,构建一个语音库,该语料库是免费的,开源的,并且足够大以创建有意义的产品。微软还在语音识别方面取得了长足的进步,如今年夏天宣布的那样,在Switchboard语音识别基准测试中,单词错误率达到了5.1%。
(责任编辑:fqj)
全部0条评论
快来发表一下你的评论吧 !