个人语音助理热

人工智能

636人已加入

描述


虚拟助手,尤其是那些拥有语音用户界面(VUI)的虚拟助手,是这个节日最抢手的礼物之一。


自2011年Siri问世以来,这些便利装置越来越多地出现在我们的日常生活中。全球约有7亿人使用AI个人助理,预计到2021年,个人助理市场将增长到近20亿。此类解决方案也很多:从Siri到Google Assistant到Amazon Alexa和Microsoft Cortana。最近,三星也推出了个人助理Bixby,而Facebook预计明年将向市场推出虚拟助手(简称“M”)。



作为开发者,了解这些设备如何工作以及如何利用其功能非常重要。个人助理的内部配备了蓝牙和Wi-Fi模块(如Qualcomm®QCA9377-3)以及处理器(如Qualcomm 骁龙™ 移动平台)。本文将探讨如何将这一切结合到一起。


会话界面是模仿与人交谈的用户界面。个人助理有两种交互方式:聊天机器人(或基于文本的交互)和语音用户界面(或语音激活助手),如前面所述的商业产品。语音激活助手通常是基于命令的AI交互——您“唤醒”它并告诉它应该做什么。


语音激活助手是处理日常任务的理想选择,例如:


事实调查:互联网搜索,查找信息、了解时间和查询天气。


任务:设置闹钟、发送消息、播放音乐。


信息收集:呼叫中心(收集用户信息),医疗卫生(提供初步诊断)。


培训:通过与AI老师交谈学习新的语言。


使用VUI,无需键盘、屏幕和拼写检查,也使得个人助理可用于免手动通信以及无障碍需求。


组件


语音助理的硬件组件包括扬声器和麦克风、蓝牙和Wi-Fi模块、标准计算机架构(CPU和RAM)。虽然设备中有很多技术,但真正的“大脑”通常放在云端。


编写VUI应用最简单的方法是使用类似Dialogflow这样的库,这些库已经针对所有主要公司做了集成。如果您希望更深入研究“大脑”,可以学习更多关于自然语言处理和机器学习的知识。


流程


作为开发者和设计人员,为使此项技术发挥作用,需要理解完整的命令交互过程:


•虚拟助手通过触发词(“Ok Google”,“Hey Siri”)“唤醒”,确保其开始执行您的命令。


•音频记录在设备端,经过压缩并通过Wi-Fi流式传输到云端。通常使用降噪算法处理记录的音频,以便云端更容易地解释命令。


•使用专有语音到文本平台将音频转换成文本命令。通过以指定频率对模拟信号进行采样,模拟声波被转换为数字数据。分析数字数据,确定英语音素(“bb”,“oo”,“sh”等)的出现位置。一旦识别出音素,就使用统计建模算法(如Hidden Markhov模型),确定特定单词的可能性。


•使用自然语言处理(NLP)文本,确定所需的行动。算法首先使用词性标注确定形容词、动词、名词等。将此标记与统计机器学习模型结合起来,推断句子的含义。


•如果行动需要进一步的搜索,那么就在此时执行。例如,“Hey Siri,什么是骁龙移动平台?”需要联网搜索返回信息。如果命令类似于“Ok Google,发送一条消息”,则命令数据(操作:发送消息,收件人:妈妈)被发送回虚拟助理。


接下来将流行什么?


现在,知道语音助手是如何工作的了,您可以开始构建自己的产品。不妨尝试制作一辆配备声控功能的遥控车,或者是一个响应孩子命令的圣诞树?凭借语音识别的强大功能和最新的Qualcomm Technologies产品,包括蓝牙和Wi-Fi模块以及Qualcomm 3D音频工具,您可以在假期中享受开发挑战带来的乐趣。






更多Qualcomm开发内容请详见:Qualcomm开发社区。




打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分