小爱同学是小米公司于2017年7月26日发布的收款人工智能(AI)音箱的唤醒词及二次元人物形象。小爱同学一经推入市场便受万千宠爱,网络上关于小爱同学的使用体验各式各样,无不是在称赞,他们对小爱同学的功能、特点无不熟悉,但是你知道小爱同学是怎么工作的吗?
智能语音交互是人工智能的分支,相当于语音助手,属于一款智能型的手机应用,通过智能对话与即时问答的智能交互,实现帮助用户解决问题的功能。
说起智能语音助手大家首先想起的是哪些呢?
1. Siri
苹果iOS系统中的人工智能助手软件
2. Cortana
微软开发的全球第一款人工智能助手,中文名小娜,横跨手机与PC两大平台。
3. Alexa
亚马逊推出的语音助手,主要搭载在Amazon Fcho智能音箱上。
智能语音交互是怎么实现交互流程中的输入输出呢?
智能语音交互界面事实上包含了三个技术环节:
1. 语音识别(ASR)
将人类的语音中的词汇转换为计算机可读的输入,一般包括了信号处理,尽可能的降低环境噪声、信道、说话人等因素对特征造成的影响。用户根据系统设计的口令密码与系统进行沟通。
比如:小爱同学的操作执行,每次发出指令的模式必须是“小爱同学+工作任务”,小爱同学接收后在把语音转化成文字,再结合文字做出指令回复。
2. 语义处理(NLP)
自然语言的处理,就是把人的语言转化成机器能够理解的数字,分解开,并回复相应的语言。很多在购买智能音箱之后都会有觉得是“智障音箱”的主要原因就在这里,现在的技术条件下,只能做到固定的回答,无法像人类一样思考,再加上人类语言有大量的表达方式和歧义语句,理解错误的地方也非常多。语义处理的主要目的就是把人类语言与机器语言尽可能的相互接近,实现真正的用户正常对话。
3. 语音合成(TTS)
是通过机械的、电子的方法产生人造语音的技术,将计算机自己产生的、或外部输入的文字信息转变为乐意听得懂的、流利的汉语口语输出的技术,可以让机器人像人一样开口说话,小爱同学就是通过这项技术跟你交流的。
语音交互发展的优势
1. 解放双手、双眼、双腿,接触空间限制,远场可交互
2. 指向明确,语义直达目标,缩短使用路径
3. 自然简单人性化,学习门槛低
4. 可以一对一,也可以一对多
5. 对硬件的要求低
语音交互的劣势
1. 不适合用户选择多、流程长,需要大量辅助信息决策的交互任务
2. 远场语音交互对距离、噪音、混响、声源数量等有一定的要求
3. 不适用于公共场合,需要安静的尝试
4. 依赖嘴巴和耳朵,对语种、口音和发音有一定要求
5. 输出信息单一,表达能力有限
从技术和时间上来说,现在的智能语音交互系统还是存在一定缺陷和局限的,但是我们相信任何技术都是在实践中成长的,你们的小爱同学也会越来越惹人爱的。
全部0条评论
快来发表一下你的评论吧 !