研究人员已经开发出一种能够检测“无声语音”的AI模型

PCB88475579 2020-12-17 1888

电子说

1.4w人已加入

加州大学伯克利分校的研究人员已经开发出一种能够检测“无声语音”的AI模型。该模型基于数字语音预测单词并生成合成语音。肌电图（EMG）的电极位于脸部和喉咙，用于检测无声语音。

研究人员断言，该模型可以为无法发出可听语音的人们启用许多应用程序，并可以帮助AI工具和其他响应语音命令的设备进行语音检测。

该小组指出，以数字方式为无声语音发声具有广泛的应用。例如，它可以生成类似于蓝牙耳机的工具，该工具可以使个人继续通话，而不会打扰周围的人。当环境声音太大而无法捕获可听见的语音或必须保持安静时，这种设备将非常有用。

口头阅读AI是可以从静音语音中捕获单词的AI的另一个示例。它可以为监视设备供电，并支持聋人的用例。

研究人员使用了一种方法，其中将所需语句的音频输出目标从发声录音转换为无声录音。然后，使用WaveNet解码器生成音频语音预测。

通过比较发声的EMG数据和基线训练的数据，发现发声的EMG方法在从书中转录句子时，单词错误率降低了64%至4%，而基线降低了95%。研究人员开源了约20小时的面部EMG数据集，以鼓励对该领域进行进一步研究。

在其他工作中，中国的研究人员建立了讽刺检测模型，该模型在多模式Twitter数据集上提供SOTA性能。Masakhane开放源代码非洲语言翻译项目的成员已发布了有关低资源机器翻译的案例研究。

责任编辑：lq

打开APP阅读更多精彩内容