智能语音交互是怎么实现交互流程中的输入输出呢?

鼎酷IOT部落 发表于 2018-03-13 15:49:28 收藏 已收藏
赞(0) •  评论(0

智能语音交互是怎么实现交互流程中的输入输出呢?

鼎酷IOT部落 发表于 2018-03-13 15:49:28

小爱同学是小米公司于2017年7月26日发布的收款人工智能(AI)音箱的唤醒词及二次元人物形象。小爱同学一经推入市场便受万千宠爱,网络上关于小爱同学的使用体验各式各样,无不是在称赞,他们对小爱同学的功能、特点无不熟悉,但是你知道小爱同学是怎么工作的吗?

智能语音交互是人工智能的分支,相当于语音助手,属于一款智能型的手机应用,通过智能对话与即时问答的智能交互,实现帮助用户解决问题的功能。

说起智能语音助手大家首先想起的是哪些呢?

1. Siri

苹果iOS系统中的人工智能助手软件

2. Cortana

微软开发的全球第一款人工智能助手,中文名小娜,横跨手机与PC两大平台。

3. Alexa

亚马逊推出的语音助手,主要搭载在Amazon Fcho智能音箱上。

智能语音交互是怎么实现交互流程中的输入输出呢?

智能语音交互界面事实上包含了三个技术环节:

1. 语音识别(ASR)

将人类的语音中的词汇转换为计算机可读的输入,一般包括了信号处理,尽可能的降低环境噪声、信道、说话人等因素对特征造成的影响。用户根据系统设计的口令密码与系统进行沟通。

比如:小爱同学的操作执行,每次发出指令的模式必须是“小爱同学+工作任务”,小爱同学接收后在把语音转化成文字,再结合文字做出指令回复。

2. 语义处理(NLP)

自然语言的处理,就是把人的语言转化成机器能够理解的数字,分解开,并回复相应的语言。很多在购买智能音箱之后都会有觉得是“智障音箱”的主要原因就在这里,现在的技术条件下,只能做到固定的回答,无法像人类一样思考,再加上人类语言有大量的表达方式和歧义语句,理解错误的地方也非常多。语义处理的主要目的就是把人类语言与机器语言尽可能的相互接近,实现真正的用户正常对话。

3. 语音合成(TTS)

是通过机械的、电子的方法产生人造语音的技术,将计算机自己产生的、或外部输入的文字信息转变为乐意听得懂的、流利的汉语口语输出的技术,可以让机器人像人一样开口说话,小爱同学就是通过这项技术跟你交流的。

语音交互发展的优势

1. 解放双手、双眼、双腿,接触空间限制,远场可交互

2. 指向明确,语义直达目标,缩短使用路径

3. 自然简单人性化,学习门槛低

4. 可以一对一,也可以一对多

5. 对硬件的要求低

语音交互的劣势

1. 不适合用户选择多、流程长,需要大量辅助信息决策的交互任务

2. 远场语音交互对距离、噪音、混响、声源数量等有一定的要求

3. 不适用于公共场合,需要安静的尝试

4. 依赖嘴巴和耳朵,对语种、口音和发音有一定要求

5. 输出信息单一,表达能力有限

从技术和时间上来说,现在的智能语音交互系统还是存在一定缺陷和局限的,但是我们相信任何技术都是在实践中成长的,你们的小爱同学也会越来越惹人爱的。

收藏

相关话题
文章来源专栏
+关注

评论(0)

加载更多评论

参与评论

相关文章

分享到

QQ空间 QQ好友 微博
取消