谷歌推出电话AI系统Google Duplex

zhKF_jqr_AI 2018-05-22 4845

电子说

1.2w人已加入

描述

谷歌I/O 2018正如火如荼地进行着。今年大会吸引了超过6000人前来现场，除了提前几小时就排好的长队，会场外的交通也早早陷入瘫痪。据不少勤奋早起的自媒体同行的凌晨报道，谷歌I/O 2018的亮点主要有以下几个：

深度学习在医疗领域的应用；

Google Assistant：看得见、听得到、会对话、会打电话的新一代谷歌个人助理；

TPU 3.0：性能是TPU 2.0的8倍；

Android P：智能化的手机操作系统，能利用机器学习节电、调节亮度，更大程度贴合用户使用习惯。

其中，Google Assistant电话功能背后的技术是Google Duplex，在大会上发布完毕后，Google AI（原Google Research官博）就发表了Google工程副总裁兼首席工程师Yaniv Leviathan的一篇介绍文章。

Gmail已成“精”

以下是论智对博客的编译。

人类与计算机互动的一个长期目标是使人们能与计算机自然对话，就像普通人之间的对话一样。近年来，特别是随着深度神经网络的广泛应用，我们目睹了计算机在理解、生成自然语言上的“革命性”能力提升。但尽管如此，即便是当今最先进的AI系统，它还是不能很好地理解自然语言。举个例子，如今自动电话客服系统所使用的技术还停留在努力识别简单的单词和命令上，它们不参与对话流程，如果听不懂客户说话内容，它们会强制要求对方调整表述，而不是进行自我调整。

所以今天，谷歌宣布推出Google Duplex，一种能在电话中用自然语言完成“现实世界”任务的技术。它目前已经能完成一些特定任务，如安排某些类型的预约。这类工作要求系统能做到自然对话，就像人与人正常沟通一样，而无需强制对方适应机器。

Google Duplex的适用空间非常狭窄，这也使它能起作用的一大原因。研究人员提出的一个关键思路就是把它限制在一些狭窄的封闭域中，让AI进行有限地广泛探索。当Duplex深度某领域后，它才能学会自然对话，也就是说，它不能进行一般对话。

听起来都很自然，它们都是发生在计算机和真人店家之间的对话。

Google Duplex技术的自然性可以让人们的对话体验更加舒适。考虑到谷歌向来很重视用户和企业对服务的良好体验，因此产品的透明度非常关键。这也是本文反复强调Google Duplex目前只适用于部分预约场景的原因。

进行自然对话

AI在自然对话方面有几个难点：一是自然语言难以理解，二是难以模仿自然行为，三是用户期待更快的回应，四则是用合适的语调生成自然的声音很困难。

当人们彼此交谈时，他们说出的话比人和计算机的对话要复杂得多。他们会经常在话说到一半的时候纠正表述，而且往往表达得啰嗦、语法不严谨、严重依赖上下文。他们还喜欢用宽泛的表述，有时在一个句子里就能连用一大串：

所以……额……星期二到星期四，我们的开门时间是11点到14点，然后16点到19点。然后星期五、星期六、星期天，我们……星期五和星期六我们11点到21点开门，星期天我们13点到21点开门。

比起机器，人类在用自然语言对话时语速非常快，再加上口齿不清、错词率更高，因此常规的语音识别也会识别困难。在电话通话中，由于背景噪声大，音质不佳，这样的问题就更严重了。

而在较长的谈话中，相同的句子可以根据上下文具有非常不同的含义。例如在预约场景下，“Ok for 4”可以同时表示时间（4点）和人数（4人）。如果AI要理解这一点，它必须上溯几个句子找根据，但这一过程会因为电话通话高水平的字错误率而变得相当复杂。

决定要说什么是一个关于对话任务和对话状态的函数。此外，围绕自然对话，Google Duplex也参考了一些常见的做法——其中包括阐述（elaboration，“下周五。”“啥时候？”“下个礼拜五，18号！”）、同步（sync，“你听得清吗？”）、中断（interruption，“号码是212……”“你能再说一遍吗？”）、暂停（pause，“你能等一会儿吗？”[等待]“谢谢！”——等待1秒和等待2分钟含义不同）。

认识Duplex

Google Duplex在对话上的自然表现主要归功于这4方面的进步：理解、交互、时机和交流。

它的核心是一个专用于解决自然对话问题的递归神经网络（RNN），在TensorFlow Extended (TFX)平台上完成构建，使用的训练数据来自匿名电话会话数据语料库。该网络有多个输入，包括原音频特征、把原音频输入Google自动语音识别（ASR）技术后的输出、上下文、对话的参数（例如预约的所需服务或当前时间）等，研究人员为每种任务分别训练了一些模型，但语料库是跨任务共享的。最后，他们又用TFX中的超参数优化进一步改进了模型。

原音频经ASR系统处理后输入网络，网络最终的输出经TTS系统转为音频

Duplex处理“中断”、“阐述”以及对“同步”的回应：

听起来很自然

Google Duplex组合使用文本到语音（TTS）引擎和综合TTS引擎（使用Tacotron和WaveNet）控制语调。

由于在对话中加入了“嗯”“呃”等词汇，系统的回应听起来更自然。但这其实是TTS连接两个音调不同的声音或正在等待合成时使用的小障眼法，是一种自然的表示问题正在受理中的状态（人们也经常这么做）。经过用户研究，研究人员发现这种反应能在不利的对话情景下给对方带来熟悉、自然的感觉。

此外，Google Duplex在回应速度方面也比较符合用户期望。当人们说完一件简单的事后，比如“hello？”，他们希望得到及时的回复，对回复延迟也比较敏感。如果系统检测到这种情况，它会马上切换成更快、精度更低的模型来工作。在极端情况下，Google Duplex甚至都不会调用RNN，而至直接使用最快的近似值（通常会带各种表示犹豫的词汇，人类面对这种事情也会有类似的反应）。这种做法使系统的响应延迟能小于100毫秒。

有趣的是，研究人员发现，这种表达上的拖延有利于使对话更自然——例如在回复一个非常复杂的句子时，这种“呃呃啊啊”的做法有奇效。

系统操作

Google Duplex系统能够应对复杂对话，并且能完全自主地完成绝大部分任务，无需人工干预。该系统具有自我监控功能，可以识别无法自动完成的任务（例如，安排异常复杂的预约）。面对这种情况时，它会主动向施令者发出信号。

为了在新领域训练系统，研究人员使用的是实时监督训练。和其他训练任务一样，在这些实验中，Google Duplex也会有一个充当“教师”的经验丰富的模型为充当“学生”的模型提供指导，确保后者执行任务的的水平最终能和自己一致。通过监督“学生”在新场景通话中的表现，“教师”能根据需要实时影响“学生”的行为，直到它的行为满足系统预期。

对于企业和用户

经常需要预约的企业可以从Google Duplex身上获益，有了这样一个智能助理，企业就无需额外安排指导人员，也不用为培训员工煞费苦心。Google Duplex还能提醒即将到期的预约项目，方便他们参加、取消或重新安排。

此外，一些用户会经常致电企业查询网上无法获得的信息（假期营业时间）。Google Duplex可以帮助企业应付这些同类电话，并在网上及时更新信息。

对于个人用户，Google Duplex可以让生活更方便。如果想打预约电话，他们只需给智能助理下指令就能安心处理其他事情，通话过程在后台进行，安静无声，无需参与。

它的另一个好处是Duplex能够以异步方式与服务提供商进行授权通信，例如，在非工作时间和对方联络。它还可以帮助解决残障人士的不便和语言障碍问题，例如听力障碍的用户或不会说当地语言的用户可以把通话任务交给Duplex，让它帮忙执行任务。

今年夏季，谷歌将在Google Assistant中测试Google Duplex，届时它的功能包括预约餐厅、预约美发和跟老板请假。

Google Duplex负责人Yaniv Leviathan和该项目的工程经理Matan Kalman通过Duplex打电话预订了一顿饭

让人们和技术能自然而然地互动，这是谷歌长久以来的承诺，而Google Duplex向这个方向迈出了第一步。

打开APP阅读更多精彩内容