高通语音识别系统近乎完美

机器人技术与应用 2018-05-30 4352

描述

近日，在美国波士顿举行的Re-Work深度学习峰会上，美国高通公司的人工智能研究人员克里斯·洛特（Chris Lott）展示了其团队在语音识别系统方面的新进展。

新语音识别系统识别单词和短语的准确率达到了95%，可在智能手机或其他便携设备上运行，包含两个神经网络：循环神经网络（RNN）和卷积神经网络（CNN）。循环神经网络利用其内存来处理输入信息，而卷积神经网络则模仿人类大脑中神经元之间的联系方式来处理信息。

洛特称，现在大多数语音识别系统在云端进行运算过程。手机中的麦克风和芯片，智能音箱如谷歌Home和亚马逊Echo，以及配置微软Cortana 语音助手的Windows电脑，可以让语音识别系统接倾听一些热门词汇，例如“OK Google”或Hey Cortana，从而接受一系列语音指令。但是，它们不会分析这些指令，而只是将这些指令传输到运行复杂机器学习算法的强大远程服务器上。

对于某些用户来说，将其语音数据上传到云端，这样会让他们担心隐私方面的问题。亚马逊Alexa和谷歌Assistant均会录制语音片段，然后将它们发送出去进行分析。它们会一直保留这些语音片段，直到用户选择删除它们。这两家公司均表示，它们录制语音是为了改善其服务，提供更加个性化的语音回答。

但是，在某些情况下，录制语音无法保护用户的隐私。在2016年，亚利桑那州调查一宗谋杀案的侦探在被告人的同意下访问了一台亚马逊Echo智能音箱中的语音数据。

洛特称，高通的这种语音识别系统直接在设备上处理数据，这样做除了可以保护用户的隐私之外，还具有多方面的好处。由于它不必将数据上传到云端，它对于指令的反应速度更快。由于它不需要连接互联网，因此它变得更加稳定。

“我们努力按照某种神经网络的形式来处理整个端到端系统。”他说，“这样可以让用户与设备的互动变得更加自然。”

洛特的话不无道理。在2016年，谷歌开发了一款离线语音识别系统，它的速度是同时期其在线语音识别系统的7倍。这个离线语音识别系统利用语音数据进行了大约2000个小时的训练，它的大小为20.3兆，在智能手机上运行，准确率为86.5%。

当然，这种设备端语音识别系统也有自身的局限性。离线工作的算法无法连接互联网，并搜索问题的答案。而且，它们无法像云端系统那样随着数据的积累不断地改进。

但是，洛特认为，高通的解决方案是面向未来的。“现在很多计算过程发生在云端，但是我们认为这个过程应该直接在设备上进行。”

打开APP阅读更多精彩内容