揭秘语音交互：个性化AI打造“数字化的你”

章鹰观察 2018-07-18 8470

描述

从更精美的照片、更高的安全性到更自然的用户界面（UI），人工智能（AI）正以无缝的方式更多地丰富我们的生活。高能效和个性化是Qualcomm AI Research的核心研究领域，因为它们对于下一代无处不在的智能用户体验而言不可或缺。终端侧AI正在支持虚拟助理的发展，而个性化正成为今天的虚拟助理和未来真正个人助理之间的主要差异。

AI驱动语音交互革命

语音是我们一直期盼的变革性交互方式，它可以提供用户与终端间的自然交互，而无需任何手部操作。先进的语音交互具有始终开启、对话式、个性化和私密的特征，可支持我们进行高效且自然的对话。从智能手机、智能音箱到扩展现实（XR）设备和汽车，语音交互正在众多产品种类中日益发展和普及。

要实现端到端的语音交互体验，其中需要多个组件的支持（见图1）。语音交互的流程是这样的：首先麦克风采集语音信号，然后是语音预处理、语音激活、语音识别和自然语言理解，最终是终端通过语音合成的方式响应用户。由此可见，端到端的语音交互是个多步骤的复杂流程。

图1：语音交互的功能组件。

为什么今天语音交互变得如此普及？一个重要因素是，机器学习已经点燃了语音交互的革命。机器语音识别的准确率正不断逼近95%，达到与人类准确率相当的水平。当机器准确率不能达到人类的水平，整个语音交互过程就没法做到对话式的自然高效交流，因此用户体验会有显著下降。机器学习技术可应用于几乎所有的语音交互组件之上，从而提升各方面及整体的交互体验。

终端侧的语音交互至关重要

因计算、内存和功率的限制，主要语音交互组件（如自动语音识别和自然语言处理）传统上都由云端AI所支持。但是，终端侧处理具有众多独特的优势，包括更快的响应速度、更高的可靠性和更好的隐私保护。尤其是在私密性方面，今天的消费者渴望把数据掌握在自己手中，并且有权选择是否将数据发到云端进行处理或存储。因此，更多在终端上进行处理并为云端功能提供补充，这是目前行业的重要趋势之一。而其中的主要挑战在于，需要在移动终端的功耗和散热限制下运行并实现复杂的语音交互功能。

图2：语音交互的主要组件正向终端侧迁移。

Qualcomm正积极应对这项挑战，并把低功耗的终端侧AI应用于语音交互组件之上。以下是几个例子：

1、语音降噪将带噪语音处理成清晰语音并输出，这在嘈杂环境中尤其重要。Qualcomm AI Research正在开发一个降噪深度学习模型，该模型与传统方法相比有显著的性能提升，并具有较高效率可在助听器这样非常受限的处理能力、功耗和散热条件下运行。

2、自动语音识别将语音转录为文本。测试表明，深度学习技术可在移动终端上实现顶级的语音识别准确率。Qualcomm AI Research已经完成了一个深度学习声学模型的训练并使其适应每个用户的口音和环境，从而提高个性化程度。

今天，终端侧的语音交互已经成为现实。Qualcomm AI Research已经可以在终端侧实现整体的端到端语音交互处理，并在2018年的CES大会上演示了智能家居中的端到端语音交互体验。在适应口音和环境后，这项演示对特定领域的指令集已经可以实现超过95%的意图理解准确率。

个性化成就真正的虚拟助理

真正的虚拟助理是在终端里面有一个“数字化的我”。因此，它需要分析个人信息并不断学习用户偏好，从而成为真正了解用户的数字助理。情境式智能是实现个性化的必备条件，而实现情景式智能需要融合多种终端侧传感器的数据（如麦克风、摄像头和陀螺仪）及其他终端侧和终端外数据（见图3）。

图3：情境式智能融合多种传感器和个人信息。

增强个性化的一大好处在于，它能够推动个人助理进一步发展并兼具响应性和主动性。真正的个人助理不仅能够在用户提问时提供个性化的答案，还能基于情境分析进行自主决策和无提示对话。

为进一步提升虚拟助理的个性化程度，Qualcomm AI Research正对终端侧的“AI agent”展开研究，它有望从所有传感器数据中不断学习个人信息，最终实现直观行动。AI agent的关键功能包括情境式融合及学习，这最终将支持个性化响应并丰富我们的生活。初步研究结果已展现出终端侧个性化的远大前景。个性化不仅将提升虚拟个人助理的用户体验，而且将丰富我们生活的方方面面。这项技术将变革众多行业，不断推动行业创新。

（本文内容来自Qualcomm高级总监兼AI研究项目负责人侯纪磊博士的署名博客）

打开APP阅读更多精彩内容