3G行业新闻
自从 Siri 面世后,市场上各种各样的私人语音助手大量出现,其中比较出名的包括谷歌助手、Amazon Alexa 以及微软的小娜。这些语音助手都有各自的优势,也存在不足。苹果语音助手 Siri 的优势就是本地化:Siri 支持 24种语言,并且还能支持 36种方言。谷歌助手只支持5种语言,Alexa 仅仅支持英语和德语。
iOS 10.3 测试版中,苹果为 Siri 增加了上海话支持,继续扩展 Siri 的本地化优势。苹果公司言语团队主管 Alex Acero 最近接受了路透社采访,并解释了 Siri 如何学习一门全新的语言。
Acero 目前在苹果公司负责言语团队,他在2013年加入苹果。最初,Siri 语音识别基于 Nuance 的技术,几年前苹果自主研发了语音平台,并取代了 Nuance 的技术。苹果的语音平台很大程度上依靠机器学习来提高对词语的理解。
当苹果团队想要为 Siri 增加新语言时,首先需要邀请能说新语言的真人阅读不同的段落和单词,并需要涵盖不同的方言和口音。
真人说出的语音被其他人录制和转录。 这形成了语言的规范,以及单词如何发声。这些语音都有真实的人读出,以确保准确性。 然后将该原始训练数据发送到算法机器训练模型中。
计算机语言模型试图预测任意字串的转录。 随着时间的推移,算法可以根据更多数据的训练而自动改进。 苹果会在内部稍微调整一下数据,然后进入下一个阶段。苹果并没有直接将语音与 Siri 集成,而是将新语言作为 iOS 和 macOS 的听写功能,当用户点击 iPhone 键盘左下角的麦克风按键时,可以进行听写操作。通过这种方式,苹果可以从更广泛的人群中获得更多的语音范例。
这些真实世界的音频剪辑自然包括背景噪声和非完美的语音,如咳嗽,停顿和口齿不清。 苹果将样本采集并由员工转录,然后使用这种新验证的音频和文本配对作为语言模型的更多输入数据。 第二个过程可以将听写错误率降低一半。
苹果会重复这个过程,直到公司认为系统足够准确,随后会作为 Siri 的新语言出现。 与此同时,配音员会记录语音序列,使 Siri 可以合成音频并执行文本-语音。最后,苹果会通过系统更新为 Siri 带来新语言,比如 iOS 10.3 和 macOS 10.12.4 中新增加的上海话。苹果会将一些常用的问题进行预设,比如给我讲个笑话,查找附近的餐馆等。
Acero 表示,当 Siri 新增加一种语言后,苹果会收集真实世界用户的问题,并每隔两周更新一次数据库。
全部0条评论
快来发表一下你的评论吧 !