谷歌AI语音服务新增7种语言和31种声音

电子那些事儿 2019-03-01 3949

描述

2月24日消息，为了扩展AI语音服务的市场，谷歌除了加强语音辨识模型、语言支持数量和声音种类之外，也调整了语音服务的价格。

谷歌更新文字转语音和语音转文字服务，除了优化语音辨识模型、新支持7种语言和31种声音之外，也调整了语音服务的价格，在特定的应用情境中，用户最多可以省下约50%的支出，而谷歌也提供每月前60分钟免费的语言转文字服务。

谷歌指出，语音辨识和生成技术在人机互动的应用中非常关键，要让人机互动更加自然、简单且普遍，并不容易，即便使用准确度高达90%的语音辨识模型，还是很难真正达到有效的对话，由于许多企业的语音辨识模型都是要在电话中运行，受到噪音的干扰，产生的文字资讯让模型难以处理，谷歌于去年4月针对这种应用场景推出电话和影片的语音转文字服务。

经过不断优化，现在电话的文字错误已降低了62%，而影片的语音转文字模型错误率也降低了64%，除此之外，影片的语音转文字模型在辨识多个说话者的情境中，像是会议或是广播，也有很好的表现。

在价格方面，为了吸引更多用户，谷歌将影片语音转文字模型收费调降了25%，而在标准和影片模型服务中，选择加入资料收集计画的用户，收费价格会减少33%，因此，若使用影片模型且选择加入收集资料计画的用户，将能够减少约50%的支出。

此外，支持的语言也是企业使用语音转文字辨识模型的一大考量，现在谷歌新增了7个语言和方言，包含丹麦语、葡萄牙语、俄语、波兰语、斯洛伐克语、乌克兰语和挪威语，加上上述新增的语言，目前总共支持持21种语言，这些新增的语言都还是测试版。在语音生成模型方面，谷歌的语音生成系统WaveNet也新增了31种声音，目前总共有包含21种语言的57种声音。

打开APP阅读更多精彩内容