智能语音交互是怎么实现交互流程中的输入输出呢?

鼎酷IOT部落 2018-03-13 11847

描述

小爱同学是小米公司于2017年7月26日发布的收款人工智能（AI）音箱的唤醒词及二次元人物形象。小爱同学一经推入市场便受万千宠爱，网络上关于小爱同学的使用体验各式各样，无不是在称赞，他们对小爱同学的功能、特点无不熟悉，但是你知道小爱同学是怎么工作的吗？

智能语音交互是人工智能的分支，相当于语音助手，属于一款智能型的手机应用，通过智能对话与即时问答的智能交互，实现帮助用户解决问题的功能。

说起智能语音助手大家首先想起的是哪些呢？

1. Siri

苹果iOS系统中的人工智能助手软件

2. Cortana

微软开发的全球第一款人工智能助手，中文名小娜，横跨手机与PC两大平台。

3. Alexa

亚马逊推出的语音助手，主要搭载在Amazon Fcho智能音箱上。

智能语音交互是怎么实现交互流程中的输入输出呢？

智能语音交互界面事实上包含了三个技术环节：

1. 语音识别（ASR）

将人类的语音中的词汇转换为计算机可读的输入，一般包括了信号处理，尽可能的降低环境噪声、信道、说话人等因素对特征造成的影响。用户根据系统设计的口令密码与系统进行沟通。

比如：小爱同学的操作执行，每次发出指令的模式必须是“小爱同学+工作任务”，小爱同学接收后在把语音转化成文字，再结合文字做出指令回复。

2. 语义处理（NLP）

自然语言的处理，就是把人的语言转化成机器能够理解的数字，分解开，并回复相应的语言。很多在购买智能音箱之后都会有觉得是“智障音箱”的主要原因就在这里，现在的技术条件下，只能做到固定的回答，无法像人类一样思考，再加上人类语言有大量的表达方式和歧义语句，理解错误的地方也非常多。语义处理的主要目的就是把人类语言与机器语言尽可能的相互接近，实现真正的用户正常对话。

3. 语音合成（TTS）

是通过机械的、电子的方法产生人造语音的技术，将计算机自己产生的、或外部输入的文字信息转变为乐意听得懂的、流利的汉语口语输出的技术，可以让机器人像人一样开口说话，小爱同学就是通过这项技术跟你交流的。

语音交互发展的优势

1. 解放双手、双眼、双腿，接触空间限制，远场可交互

2. 指向明确，语义直达目标，缩短使用路径

3. 自然简单人性化，学习门槛低

4. 可以一对一，也可以一对多

5. 对硬件的要求低

语音交互的劣势

1. 不适合用户选择多、流程长，需要大量辅助信息决策的交互任务

2. 远场语音交互对距离、噪音、混响、声源数量等有一定的要求

3. 不适用于公共场合，需要安静的尝试

4. 依赖嘴巴和耳朵，对语种、口音和发音有一定要求

5. 输出信息单一，表达能力有限

从技术和时间上来说，现在的智能语音交互系统还是存在一定缺陷和局限的，但是我们相信任何技术都是在实践中成长的，你们的小爱同学也会越来越惹人爱的。

打开APP阅读更多精彩内容

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

全部0条评论

快来发表一下你的评论吧 !

×

20

完善资料，
赚取积分