微软在文本到语音合成方面达到了一个新的里程碑

DPVg_AI_era 2018-09-26 2570

电子说

1.2w人已加入

微软在Ignite会议上推出新的神经文本-语音合成（TTS）利器！这项新服务生成的语音在节奏、语调和顿挫感上都几乎和真人一样，具备人类语音一样的自然韵律和词汇清晰度。目前该服务已经发布预览版，开发者可申请尝鲜！

微软在文本到语音合成方面达到了一个新的里程碑，利用深度神经网络，使计算机合成的声音几乎与真人的录音无法区分。合成的声音具备和人类语音一样的自然韵律和明确的词汇清晰度，用户在与AI系统进行交互时，可以显著降低听觉疲劳。

微软技术院士、语音和语言团队负责人黄学东(Xuedong Huang)表示：

语音是推动环境计算开发的新界面，因为语音识别已经改变了我们的日常生活，从数字化助理、电子邮件和文档内容的听写、再到记录演讲和会议内容。由于微软多年来在语音识别方面的研究，以及一直处于最前沿的神经网络技术的跨越式进步，这些方案在今天仍然可行。

随着微软Azure GPU加速的虚拟机规模的不断扩展，如ND v2使用的8路互联NVIDIA Tesla V100 GPU以及基于Skylake的处理器，我们有可能快速提高大规模语音识别模型的训练速度，为Cortana，Skype翻译，Windows和Office提供支持。期待这些服务的发布！“

黄学东

新文本-语音合成服务已经可预览，开发者可尝鲜

黄学东表示，微软的团队本周在佛罗里达州奥兰多举行的Microsoft Ignite会议上展示了这个神经网络驱动的文本到语音合成功能。该功能目前可通过Azure Cognitive Services语音服务进行预览。

该功能可以让聊天机器人和虚拟助理的交互更自然、更具吸引力，比如将电子书等数字化文本转换为有声读物，让车载导航系统的功能更加强大等。

这项文本-语音转换功能是微软在过去两年中取得的一系列突破之一，其他技术突破还包括在会话语音识别和机器翻译中达到与人类大体相当的水平。

神经文本到语音合成（TTS）：声音和真人一样

微软此次发布的文本到语音合成技术，利用深度神经网络来克服传统的文本到语音转换系统的局限性，匹配口语中的语音顿挫和语调模式和韵律，并将语音单元合成为计算机语音。

传统的文本到语音系统将韵律分解为单独的语言分析和声学预测，这些步骤分别由独立模型控制。这可能导致合成后的语音结果过于低沉和嘈杂。微软的系统能够同时进行韵律预测和语音合成，合成的声音更加流畅自然。

利用微软Azure的计算能力，该服务可以提供实时流，这对于与聊天机器人或虚拟助手进行交互等场景是非常有用的。

微软将在Azure Kubernetes服务中提供该功能。这可以确保了这一功能具备较高的高可扩展性和可用性，让客户能够从单个端点使用基于神经网络的文本到语音转换和传统的文本到语音转换服务。

目前预览版的服务提供两种预先构建的英语文本-语音转换服务，有男女两种声音（Jessa和Guy）。未来即将推出更多语言，以及49种语言的定制服务，为希望构建针对其特定需求而优化语音的客户提供定制化服务。

文本-语音转换服务的典型应用场景

提高可访问性：文本-语音转换技术使得内容所有者和发布者能够响应人们与其内容交互的不同方式。凭借该技术，视力有障碍或阅读困难的人也能够通过听觉来消费内容。语音输出还能使人们在上下班或锻炼时更容易通过移动设备上获取文本内容，比如报纸或博客。

多任务场景下的反应：文本-语音转换技术让人们能够在驾驶时、或不便阅读的环境中快速舒适地吸收重要信息。该领域的常见应用是导航服务。

增强多模式学习：不同的人有不同的最佳学习方式。在线学习专家发现，同时提供语音和文本有助于让信息更加易于学习。

开发认知机器人和助理：对话能力可能是智能聊天机器人或虚拟助手的重要组成部分。越来越多的公司正在开发聊天机器人，为客户提供引人入胜的服务体验。该技术为聊天机器人和数字化助理的响应方式增加了一个新的维度。

打开APP阅读更多精彩内容