谷歌语音系统AI新科技：同真人声音无法区分

lumingluming 2017-12-28 2277

音频技术

96人已加入

描述

人工智能在语音系统中起到了很大的作用。据报道，谷歌推出来一款文字转语音系统，具有极高的发音准确性，并且合成语音与真人声音难以区分。

据国外媒体报道称，如果按照最新的标准来看，人类似乎已经将自己的“声带”正式献给了人工智能。这可并不是笔者在这儿危言耸听，而是谷歌本月开创性地推出了一款名为“Tacotron 2”的全新文字转语音系统，它具有惊人的发音准确性，且实际文本阅读效果几乎同真人声音无法区分。

消息称，“Tacotron 2”其实已经是谷歌的第二代类似技术，它由两个深度神经网络组成。其中一个负责将文本转换为可视化的图谱（通常是PDF格式），然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet（这个神经网络是从DeepMind实验室孵化而来），并将其还原为一个真实的声音。

目前，该系统只进行了英语女声的训练（如要需要它发出男性声音的话，谷歌则需要对其进行重新“培训”）。谷歌的研究人员表示，“Tacotron 2”完全可以准确发音一些非常复杂的单词和人名，并根据标点符号的不同而有所区分，甚至能够完美地讲完一段绕口令。举例来说，“Tacotron2”会默认在读到大写单词的时候加重语气，也能够处理少量的人为打字错误。

同谷歌正在研发的其他核心AI技术不同，“Tacotron 2”不仅仅是某种一直停留在实验室阶段的技术，而是将对公司其他产品起到立竿见影的作用。举例来说，谷歌实际上已经将深度神经网络WaveNet用于在GoogleAssistant中生成更为真实的语音反馈。而一旦这一产品在未来迎来进一步完善后，它显然会对提升谷歌其他产品的用户体验提供更大帮助。

需要指出的是，所谓“语音合成技术”又称文本转语音（TTS）是如今很多移动产品和应用上不可或缺的技术模块，例如语音交互应用、导航、语音控制以及为视力障碍者设计的产品中都需要语音合成技术的支持。在此之前很长一段时间内，语音合成技术都是采用拼接方式，需要记录大量语料才能进行语音合成。这样的方法不仅前期需要处理大量数据，而且一旦说话人有所改变就需要重新记录和处理，所以业界一直在寻找可以实时生成语音的方式。

对此，谷歌旗下DeepMind实验室在2016年就推出了WaveNet深度神经网络，该网络在经过真实语音训练后可以根据文本直接生成音频。在过去12个月中，DeepMind一直在努力大幅度提高模型的速度和质量，用于“生成能够产生比现有技术更好、更逼真的，语音原始音频波形”。

打开APP阅读更多精彩内容