音视频及家电
(文章来源:雷锋网)
品牌就是一个虚构的人,和人一样它也拥有许多独特的特征,其中就包括声音。品牌的声音可帮助用户通过听觉立马识别出品牌的个性。今日,亚马逊的云服务Amazon Polly推出了“品牌之声”业务,这是一项完全自动化的服务。该服务可以将文字内容转换为逼真的语音,为客户提供特别定制的声音服务。
正如亚马逊的AI语音负责人Rafal Kuklinski和高级产品经理Ankit Dhawan在一篇博客文章中解释的那样,“品牌之声”允许公司通过将独特的声音特征融入到他们的产品和服务中来区分其他品牌。“每一家公司都可以拥用自己独特的声音品牌。”他们写道。
亚马逊与KFC合作,为后者的品牌标志“肯德基老爷爷”植入美国南部的英语口音,并在亚马逊Alexa App中上线。另外,它还为澳大利亚国民银行(National Australia Bank)设计了澳大利亚英语语音,该银行将联系中心迁移到亚马逊全渠道云联系中心产品Amazon Connect中。
去年年底,亚马逊在一份研究论文中详细介绍了其运用AI生成语音方面的工作(“数据简化效应对文本转化成语音的影响”),研究人员在其中描述了一种系统,该系统仅需要几个小时的训练即可学会一种新的语言风格。而同样的目标,配音演员可能需要数十小时。
亚马逊的人工智能模型由两个部分组成。第一种是神经网络,它可以将音素序列转换为声谱图序列,声音随时间的变化使得频谱可以用肉眼清晰的观察到它的变化。第二种是声码器,它将声谱图转换成连续的音频信号。这种人工智能模型的训练方法,将大量中性化风格的语音数据与所需风格的数据以及一种能够区分语音的AI系统结合在一起。亚马逊已经在内部使用它来为Alexa生成新的声音。
这种技术具有很好的商业价值。品牌声音(例如,由女演员斯蒂芬妮·考特尼扮演的角色Fio)的任务通常是为互动语音应答系统录制电话树,或为企业培训视频录制电子学习脚本。合成器可以通过减少辅助录音和接听来提高演员的工作效率,同时使他们腾出时间从事创造性工作。
凭借“品牌之声”和其他文本转化为语音的服务,亚马逊与谷歌在这个领域脱颖而出。谷歌最近推出了31个人工智能合成的WaveNet语音和24个新的云文本到语音服务标准语音。除此之外,亚马逊还有另一个值得注意的竞争对手微软,微软通过Azure语音服务API提供了三种人工智能生成的预览语音和75种标准语音。
亚马逊的“品牌之声”还与Voicery等多家初创公司的产品展开竞争,后者提供定制的数字声音,听起来令人印象深刻,很像人类的声音。文本转化为语音的技术初创公司iSpeech也拥有类似的语音工具,Modulate,Respeecher,Resemble AI,Descript和印度班加罗尔的DeepSync也是如此。
(责任编辑:fqj)
全部0条评论
快来发表一下你的评论吧 !