个人语音助理热

电子工程师 2018-09-18 351

人工智能

643人已加入

描述

虚拟助手，尤其是那些拥有语音用户界面（VUI）的虚拟助手，是这个节日最抢手的礼物之一。

自2011年Siri问世以来，这些便利装置越来越多地出现在我们的日常生活中。全球约有7亿人使用AI个人助理，预计到2021年，个人助理市场将增长到近20亿。此类解决方案也很多：从Siri到Google Assistant到Amazon Alexa和Microsoft Cortana。最近，三星也推出了个人助理Bixby，而Facebook预计明年将向市场推出虚拟助手（简称“M”）。

作为开发者，了解这些设备如何工作以及如何利用其功能非常重要。个人助理的内部配备了蓝牙和Wi-Fi模块（如Qualcomm®QCA9377-3）以及处理器（如Qualcomm 骁龙™ 移动平台）。本文将探讨如何将这一切结合到一起。

会话界面是模仿与人交谈的用户界面。个人助理有两种交互方式：聊天机器人（或基于文本的交互）和语音用户界面（或语音激活助手），如前面所述的商业产品。语音激活助手通常是基于命令的AI交互——您“唤醒”它并告诉它应该做什么。

语音激活助手是处理日常任务的理想选择，例如：

•事实调查：互联网搜索，查找信息、了解时间和查询天气。

•任务：设置闹钟、发送消息、播放音乐。

•信息收集：呼叫中心（收集用户信息），医疗卫生（提供初步诊断）。

•培训：通过与AI老师交谈学习新的语言。

使用VUI，无需键盘、屏幕和拼写检查，也使得个人助理可用于免手动通信以及无障碍需求。

组件

语音助理的硬件组件包括扬声器和麦克风、蓝牙和Wi-Fi模块、标准计算机架构（CPU和RAM）。虽然设备中有很多技术，但真正的“大脑”通常放在云端。

编写VUI应用最简单的方法是使用类似Dialogflow这样的库，这些库已经针对所有主要公司做了集成。如果您希望更深入研究“大脑”，可以学习更多关于自然语言处理和机器学习的知识。

流程

作为开发者和设计人员，为使此项技术发挥作用，需要理解完整的命令交互过程：

•虚拟助手通过触发词（“Ok Google”，“Hey Siri”）“唤醒”，确保其开始执行您的命令。

•音频记录在设备端，经过压缩并通过Wi-Fi流式传输到云端。通常使用降噪算法处理记录的音频，以便云端更容易地解释命令。

•使用专有语音到文本平台将音频转换成文本命令。通过以指定频率对模拟信号进行采样，模拟声波被转换为数字数据。分析数字数据，确定英语音素（“bb”，“oo”，“sh”等）的出现位置。一旦识别出音素，就使用统计建模算法（如Hidden Markhov模型），确定特定单词的可能性。

•使用自然语言处理（NLP）文本，确定所需的行动。算法首先使用词性标注确定形容词、动词、名词等。将此标记与统计机器学习模型结合起来，推断句子的含义。

•如果行动需要进一步的搜索，那么就在此时执行。例如，“Hey Siri，什么是骁龙移动平台？”需要联网搜索返回信息。如果命令类似于“Ok Google，发送一条消息”，则命令数据（操作：发送消息，收件人：妈妈）被发送回虚拟助理。

接下来将流行什么？

现在，知道语音助手是如何工作的了，您可以开始构建自己的产品。不妨尝试制作一辆配备声控功能的遥控车，或者是一个响应孩子命令的圣诞树？凭借语音识别的强大功能和最新的Qualcomm Technologies产品，包括蓝牙和Wi-Fi模块以及Qualcomm 3D音频工具，您可以在假期中享受开发挑战带来的乐趣。

更多Qualcomm开发内容请详见：Qualcomm开发社区。

打开APP阅读更多精彩内容