剑桥语音博士俞凯解读智能语音技术

描述

1  智能语音技术发展与siri

智能语音技术发展过程可以理解为两个阶段,第一是输入和输出阶段,即识别与合成,第二是理解和思考阶段,即语义理解、对话系统、人工智能反馈。并且每一个细分领域均为单独研究,例如语音识别、自然语言处理、声纹处理,语义解析等等。

siri 目前最大的优势在于语义单项理解的算法,在一个限定的领域下,siri表现确实很好,但在整个语音领域内,尤其不限定领域和语音识别不稳定的情况下,显得有些后劲不足,这也与目前技术有关。而思必驰与siri不同的地方在与交互的理论,目前思必驰以任务型对话为目标,并专注于此。

2  一体化综合解决技术增强用户体验

目前的智能语音基本是单独模块定义单独的功能,例如语义理解、语音识别模块,彼此之间没有控制与调度,这也是造成目前语音延迟现象的部分原因,而造成延迟另外的原因是语音的处理、理解、交互系统设计方式。

用户最希望的是智能语音界面能像人与人的交流一样,语音能够迅速反馈。但目前,虽然单独语音识别很多单位都能做的很快,但组装成交互系统之后就大都无法做到这一点了。目前思必驰推出的一体化解决方案,针对利于用户体验方面进行优化,达到端到端的用户体验,优化整个控制流程,在识别的基础上同时进行输出,达到一个快速智能反馈的效果。我们是面向终端用户体验去做语音交互优化,而不仅仅提供一个模块而已。

3  人性化交互的智能语音方向

未来的智能语音交互发展方向一定是混合发展模式,将以用户为中心,综合应用全面的语音技术,而不仅仅是单纯的语音识别。第一,智能语音技术会与环境、语境自适应的结合;第二,语音的发展在自然场景下应用会越来越多,例如在高噪声环境中的处理是未来的一个方向;第三,结合上下文的语义理解以及端到端的语音交互解决。目前单独的识别以不能解决所有问题与满足用户需求,将识别、理解、对话的交互控制等融合,提供整套的解决方案才是最终的方向。

人工智能层面的语音技术中,单纯的识别率是以科研指标为中心,而人工智能角度与工程科研指标在某些方面截然不同。而我们一直以用户为中心,面向指标是令人工智能语音真正人性化,在多类环境下准确识别并反馈,以个性化色彩进行交流。语音交互的未来应当是面向用户,人性化的智能交互,而非过去模块化的交互。

俞凯博士背景:拥有剑桥大学语音识别专业的学术背景,也是国内学术界“青年***”里唯一一位来自智能语音技术行业领域的语音专家,曾多次获得美国国家标准局和美国国防部语音识别评测冠军,是国际最早的认知型人机口语对话系统原型的主要实现者,在上海交通大学创建了智能语音实验室。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分