研究人员已经开发出一种能够检测“无声语音”的AI模型

电子说

1.3w人已加入

描述

加州大学伯克利分校的研究人员已经开发出一种能够检测“无声语音”的AI模型。该模型基于数字语音预测单词并生成合成语音。肌电图(EMG)的电极位于脸部和喉咙,用于检测无声语音。

研究人员断言,该模型可以为无法发出可听语音的人们启用许多应用程序,并可以帮助AI工具和其他响应语音命令的设备进行语音检测。

该小组指出,以数字方式为无声语音发声具有广泛的应用。例如,它可以生成类似于蓝牙耳机的工具,该工具可以使个人继续通话,而不会打扰周围的人。当环境声音太大而无法捕获可听见的语音或必须保持安静时,这种设备将非常有用。

口头阅读AI是可以从静音语音中捕获单词的AI的另一个示例。它可以为监视设备供电,并支持聋人的用例。

研究人员使用了一种方法,其中将所需语句的音频输出目标从发声录音转换为无声录音。然后,使用WaveNet解码器生成音频语音预测。

通过比较发声的EMG数据和基线训练的数据,发现发声的EMG方法在从书中转录句子时,单词错误率降低了64%至4%,而基线降低了95%。研究人员开源了约20小时的面部EMG数据集,以鼓励对该领域进行进一步研究。

在其他工作中,中国的研究人员建立了讽刺检测模型,该模型在多模式Twitter数据集上提供SOTA性能。Masakhane开放源代码非洲语言翻译项目的成员已发布了 有关低资源机器翻译的 案例研究。

责任编辑:lq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分