研究自然语音交互系统带来人机对话新体验

电子说

1.3w人已加入

描述

不难发现,现在「车载语音交互」的体验越来越完善。它不仅能完成更多的指令,而且能和我们进行情感交互,甚至还懂得一些基本的伦理纲常。AI语音交互,同样正在占据我们生活应用中的每一个入口,现在,被视作“第三空间”的汽车场景,通过自然连续对话完成人车之间的主动交互,正在成为现实。

回顾发展之初,车载语音虽然能完整跑通 ASR、TTS 这些流程,能实现一些简单的 NLU/NLP 能力,但体验有很多漏洞,比如有可能识别失败,指令完成缓慢,交互逻辑不合常理等等。如今来看,这些基础能力正变得更强,基本可以称得上是一个「有价值的工具」。

另一方面,语音交互作为智能网联汽车的“灵魂”,一直是车联网公司和主机厂发力的重点领域。目前市面上常见的车载系统每次交互都得说出唤醒词,无法做到自然连续对话。相比市场同类车载系统,基于AliOS底层技术开发的斑马智行VENUS系统,在AI语音功能智能化程度上有了更高突破,不仅具备人类亲和力的特质和逻辑思维能力,同时,整个对话体验更加自然流畅,能带给用户更具情景化、更有温度的用车体验。

实际上,新斑马语音产品在快、准、自然的交互体验基础上,开创了全双工、全场景、全闭环的交互特色,并第一次在车内实现了个性化声音克隆的技术。

语音基础能力方面,新斑马语音背靠阿里巴巴达摩院,提供ECNR、VW、ASR、TTS等全链路语音基础能力,并且在汽车语义上投入重兵与达摩院合作共建,保障在核心能力上的领先性和特色。

语音交互特性方面,重点演进了全双工交互能力,并且开发了可见即可说、全时唤醒、灵动唤醒词、多TTS引擎、双模态交互、个性化声音克隆等交互特色。其中声音克隆技术可以将用户的声音复制到车内,提供更加个性化的趣味体验。

同时,在与车场景结合方面,斑马语音拥有全场景、全闭环的交互体验。在地图导航、多媒体、通讯、车控车设四大场景上进行了深度挖掘,与语音进行深度结合,实现动口不动手的语音交互体验。同时为支付宝车载小程序开放平台提供语音开放能力,让接入汽车的支付宝车载小程序都可以使用语音进行交互。

自然语音交互系统- 全双工交互技术

一次唤醒多次输入

更高效更接近人类交互习惯

基于场景的上下文预测

边说边听,边听边想

全双工交互具有一次唤醒多次输入、边说边听边听边想、基于场景进行上下文预测等能力。相比传统语音交互方式,全双工更接近人类习惯,是语音交互到自然交互的必备阶段。

实现全双工语音交互,面临着多项技术挑战:如何在机器说话的同时清楚地接收用户说话的信号?如何保证持续不断地接收用户完整的信息表达?如何在保证准确理解的前提下控制误触发?这些问题在汽车环境中会被不断放大,阻碍技术的落地应用。

斑马依托达摩院降噪、回声消除、流式ASR、流式NLU、专项NLU拒识模型等前沿技术,在大规模实车数据的训练下,实现了真正的全双工交互技术在车内的大规模使用。

自然语音交互系统- 声音克隆技术

基于深度神经网络

快速生成TTS声音模拟

个性化自然交互体验

让最熟悉的声音一路相伴

声音克隆技术只需要提取用户5-10分钟的声音片段,就可以提取出他的声音特征,进而训练出和他的声音相似的TTS声音。传统的TTS技术需要获得几十小时的数据才能够进行TTS的发音人训练。而基于深度神经网络,斑马声音克隆系统在5-10分钟的声音片段中,就可以通过声音特征提取训练、声音合成器训练和声码器训练完成TTS声音的模拟。

声音克隆技术在车内可以为你带来更加个性化的自然交互体验,你可以把车内的声音设置成自己的爱人、子女、父母等亲人的声音,为自己的行车生活增添更多的温暖。

有了声音及语意上的天然优势,再加之AI大数据的后端支持,斑马智行VENUS实现了“智商情商双进步,聊啥都懂”的突出能力。具体来看,斑马智行VENUS AI语音技能将覆盖500多个常用知识领域,无论是查天气、查股票,还是幽默段子,都能“随问随答”。

随着5G、物联网、自动驾驶等技术的成熟,车载语音助手必然会替代我们现有的人车交互方式,一款好的车机语音对汽车而言,显得尤为重要。在近日对外透露的斑马5计划中,「对话式导航」将成为下一项语音交互黑科技。不久的将来,影视剧中如霹雳游侠那般的人车对话也终将会实现。

编辑:jq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分