有关设计对语音用户界面的一些挑战和最佳做法

星星科技指导员 2022-12-02 1431

描述

　　语音交互是21世纪最具颠覆性的技术之一。每天都有越来越多的设备通过语音用户界面（VUI）组件进入市场。虽然语音支持设备的许多技术挑战已经得到解决，但让最终用户满意地使用设备的体验仍然是一个悬而未决的问题。本文介绍了有关设计对用户有效、自然且引人入胜的 VUI 的一些挑战和最佳做法，包括设计置信度阈值、适应插入、使用 n 最佳列表，以及如何在实际对话中与用户交谈（而不是在用户处）。

　　虽然语音用户界面（VUI）自1968年以来一直处于公众心态的边缘，当时HAL和Dave Bowman存在分歧，但直到Tony Stark在2008年开始与J.A.R.V.I.S.开玩笑，有用的语音控制“智能家居”的概念才开始成为焦点。

　　这款大获成功的Amazon Echo设备于2014年发布，将最新的语音识别技术与强大的基于云的计算相结合，提供几乎可与电影中描绘的相媲美的家庭体验。打开灯或音响系统从未如此简单。

　　从那以后，谷歌、苹果和其他科技公司加入了这场争斗，并相互绊倒，为您的家庭、工作场所和汽车提供最佳的交互式语音体验。

　　这项技术已经有很长一段时间了。贝尔实验室和IBM早在1950年代就致力于语音系统。但是，直到 1990 年代后期，Dragon‘s NaturalSpeak 软件才获得了足够的吸引力，将语音识别带入了消费者的集体意识。虽然在当时是革命性的，但NaturalPeaks需要最终用户进行相当多的“培训”才能达到90%的准确率，这使得语音识别作为一种人机交互形式可行。因此，这项技术并不像它可能的那样自然。

　　多年来，开发人员、设计师和技术人员一直在努力工作，试图“解决语音问题”。然而，我们在识别准确率方面只增加了5%。

　　那么，为什么设计更准确、更像人类的语音界面如此困难呢？

　　在设计VUI时，必须解决两个关键方面。首先是确保界面能够将声音识别为人类语音。这被称为自动语音识别（ASR），是语音转文本软件引擎的核心。ASR 可以在现代消费类硬件上以合理的处理速度执行。但是，ASR 通常在云中完成。像Amazon Echo这样的设备只做足够的本地处理来找到它们的“唤醒词”，而其余的工作则由远程计算资源完成。所以，是的，Alexa正在听你说的一切。但她只在乎你说她的名字。

　　语音体验的第二个也是更困难的方面是确保设备在识别语音后知道如何处理语音。自然语言理解（NLU）结合了包括语言学，认知科学和人工智能在内的各种学科，多年来一直挑战着计算机科学家。尽管一些专家认为ASR是开发VUI的“困难部分”，但我不同意。多年来，我们一直保持稳定在95%左右的准确率 - 可与人与人之间的交流相媲美。是的，即使是人与人之间的交流也不是100%准确的。想想你在和另一个人说话时说多少次“嗯？”或“什么？”。然而，这些对话很容易理解。

　　作为UX设计师，我们面临的挑战是弄清楚如何创建卓越的交互式语音体验，尽可能接近模仿人与人之间的体验。

　　这称为自然用户界面或 NUI。让简单的命令正常工作很简单 - 主要是从话语中提取正确的关键字。例如，让您的智能家居正确响应“打开餐厅灯”并不太复杂。它只涉及创建一个界面，该界面可以识别所需的操作（“打开”）以及执行该操作的内容（“餐厅灯”）。

　　但仍然存在挑战。由于我们的语音识别准确度略低于 100%，因此设备可能无法理解你的确切话语。也许语音助手听到你说“打开餐厅的灯”。虽然人类可以轻松地从餐厅跳到餐厅，但在计算机的二进制世界中并非如此。“用餐”不等于“用餐”，因此您的语音助手无法理解您在问什么。你最终会感到沮丧，在黑暗中进食。

　　幸运的是，我们可以围绕这一点进行设计。解决方案在于超越简单的话语和命令，让我们的用户参与对话。

　　在我们的例子中，智能家居理解你的意图——你想打开餐厅的灯——但它没有得到足够的信息来执行任务。因此，我们对VUI进行编程，以执行人与人交互中的典型操作：要求澄清。我们的智能家居可以回应“对不起，我没有完全理解。你想打开什么？

　　这种互动建立在置信度的概念之上——你的智能家居有多确定它真的理解了你的要求？如果智能家居非常确定它理解你的请求 - 比如说超过75%的准确率 - 它可以执行它。如果只是有点确定，设备可以要求澄清。通过利用置信度和参与对话，您可以澄清您的请求，而无需从唤醒词重新启动整个命令交互。

　　N-最佳名单

　　下一个设计技术建立在这种对话方法的基础上，试图根据先前对话的预期响应来预测你可能会说什么。您的智能家居听到“用餐”而不是“用餐”并非不合理。甚至是其他听起来相似的词，如“潜水”。

　　通过将这些险些失误收集到称为N-best列表中的东西中，您的智能家居可以捕获可能的可能性。现在，您家的VUI可以要求您确认列表中的单词，或者继续执行该命令。让你的家回答说：“我想你让我打开餐厅的灯。是吗？“表明你的家足够聪明，（很可能）弄清楚你说了什么，但又足够礼貌地仔细检查，以防万一它不能100%完全理解这个要求。

　　流程图

　　流程图允许VUI设计人员绘制出在简单交互中发现的可能分支。继续关于餐厅灯光的对话，为了确保流畅、自然的对话，VUI 设计师必须考虑您可能的反应。您可以用简单的“是”来回答有关开灯的澄清请求。在这种情况下，智能家居应该打开灯。

　　但是，如果你听人与人对话的录音，它们通常不会那么干涸。如果你回答“是”而不是“是”怎么办？或者“没错”或“让它这样”或任何数量的肯定？如果你的回答是否定的怎么办？不。不。呃。你的智能房子知道该怎么做吗？

　　这种情况正是为什么检查列表而不是简单的关键字匹配至关重要的原因。这是实现最自然交互的最佳方式。

　　驳船

　　人与人交流的另一个值得一提的方面是中断。有时我们是不礼貌的——我们不会等谈话中的对方说完才开始说话。其他时候，打断是及时推进对话的唯一方法。在这两种情况下，中断的能力使对话更加自然。

　　下面是一个示例。您进入了挡泥板弯曲机并致电您的保险公司提出索赔。在公司的自动电话系统上收听一长串选项时，只要听到“按 3 到达理赔部门”，您就会打断。你急切地点击“3”键，不要费心去听列表的其余部分。

　　这种闯入和中断对话的能力是VUI设计人员需要结合的东西，以便创建类似人类的语音交互。（如果你的服务员正在阅读沙拉酱清单，而你说“停下，我想要那个，油醋汁”，而他继续列出沙拉酱，事情会变得有点尴尬。亚马逊Echo在支持闯入方面做得很好，让用户随时说“Alexa，取消”。

　　外卖

　　设计一个引人注目的、听起来像人类的语音助手当然是可能的。例如，谷歌的新Duplex电话机器人配备了大多数人常见的会话抽搐，包括贯穿整个对话的“ahs”和“ums”。有些人甚至对人工智能和人类语音之间的界限变得越来越模糊表示担忧。

　　审核编辑：郭婷

打开APP阅读更多精彩内容