车载语音如何攻克技术与体验门槛

描述

近年来,语音交互算是真正在市面上火了一把。智能手机、智能音箱、机器人,但凡是市面上我们能看到的所谓标榜智能的产品,或多或少都搭载了语音交互的功能。

和触控、按键、手势等交互方式一样,语音交互也是一种人机交互方式,并且是被业界认为是最便捷、最符合人类交互习惯的一种交互方式,甚至有业内人士宣称,未来语音交互将会逐步取代按键和触控,成为主流的人机交互方式。

无论是考虑到用户的使用习惯还是市场竞争和变革的压力,对于汽车行业来说,主机厂和车载语音供应商都不愿意放过这个机会,致力于在车载语音交互方面实现从量到质的转变。

但,就目前大多数用户的使用体验来看,类似于山东大汉怒骂车载语音服务这类让人哭笑不得的新闻,背后反映的其实是现阶段的车载语音恐怕还没我们想的那样成熟和智能。

其实也很容易理解,发展比较完善的消费电子端的语音交互都还停留在向智能进化的过程中,车载语音就更“低能”了。

下面是一些实际车主对于目前已经搭载智能语音交互的车型的评价:

语音助手莫名其妙被激话,这时导航的语音提示会停止,如果此时你正在叉路口是不是要懵逼?

特别是语音导航,多人试过,没有一次可识别的。

语音识别还凑合,主要问题是听不懂同音字,车机可玩性差。

我们体验过的众多语音识别系统中,虽然有支持多轮对话的,但对话节奏、语速、还有这句话说完了,多久再说下一句它还能接上,这些问题还都没有很好的解决掉。

车载语音很鸡肋,没网络用不了。语音功能不开网络时几乎就是个聋子,是不识别的话,再说下一句话,还需要你低头还要点下麦克风图标。

汽车的使用场景与消费电子不同,汽车在行驶过程中一直面临着来自各方的噪音干扰,如发动机、车噪、胎噪、空调噪声、风噪、中控多媒体等。

这样就对车载语音的拾音和降噪能力提出了很高的要求,而这也正是车载语音当前比较难以攻克的问题。

多麦克风阵列技术

机器在进行语音识别时主要是通过前端的信号处理和提取,也就是拾音降噪处理,然后将接收到的声音输入到识别系统中,经过识别系统执行指令或进行智能回复。

在语音识别前期,工程师需要对机器进行大量的训练和学习。从前端的降噪处理将声学信号进行处理,转变为机器能够听懂的语言,当有了足够的文本数据和语音之后,后端模块将负责让机器学习如何理解阅读,比如每个字的读音、什么样的文本组合是通顺的,然后提取有用的数据模型构成数据库。最后机器从数据库和语言模型信息的网络搜索相应的信息解码,输出结果。

这只是语音识别和降噪的一个简单过程,在实际应用中,情况远比这更加复杂。

就拿第一步拾音这个过程,麦克风要如何接收到不同方位的声波?最明显的一个问题就是现在中控区的语音主要是针对主驾驶员方向的,如果副驾和后座乘客想要进行语音交互,机器能分别接收和识别到他们的声源吗?

答案是肯定的,实际体验过车载语音交互的用户大概有所体会。当我们坐在主副驾位置时,我们可以很轻松的使用语音交互,它可以清晰的辨别这两个位置的声源进行识别。

但如果是后座的乘客想要使用中控区的语音交互就显得有些困难,用户需要大声呼叫或者是身体向前倾,也就是必须要让声源和麦克风的距离足够的近,才能够采集到声源信息。

在这方面业内大多采用麦克风阵列技术进行多位置识别,通过多个麦克风能够计算声源的角度和距离,从而对目标声源进行定向拾音。此外,这也涉及到麦克风的设计位置和组合方式,比如主驾驶方位需要安放几个麦克风,什么样的组合方式,副驾以及后座需要安放几个。

通常情况下有两种方案:单麦克风方案和双麦克风方案。单麦克风方案只接收主驾位置的声音,对于其他方位传来的声音会选择过滤屏蔽掉。双麦克风就是在主副驾各放置一个麦克风,通过声音发出的强弱和响度来判断方位。

现在的语音厂商更多会把自家的技术优势和市场的需求结合起来,希望在庞大的车载语音市场里打造自己特色的语音服务。思必驰告诉高工智能汽车,每家语音厂商采用的识别方案都不尽相同,但最终的目的都是希望能提升用户的体验。

在定向拾音方面,思必驰也有他们自己的方案,如主驾模式和整车模式。当用户设置为主驾模式时,主要针对驾驶员方向进行识别,整车模式就是多方位拾音,包括驾驶员、副驾驶和后座乘客。背后主要依靠强大的软件算法能力,实现定向增强或抑制某个方向的声音。

车载语音的降噪

除了定向拾音,车载语音的降噪也是现在面临的一大难点。总体来说汽车遇到的噪音干扰可以分为三大类,第一种是汽车硬件里面发出的底噪。第二种是车机或设备发出的声音,如多媒体播放的音视频、空调声音等。第三种就是汽车外部的环境音,诸如风噪、交通噪音等。

在我们普通人理解降噪就是对那些噪音进行过滤和隔离,实际上厂商也确实是这样做的。不过,它是针对不同的噪音采用不同的降噪方案。

根据思必驰介绍,第一类噪音主要是通过软件的算法来过滤或者是调整硬件结构的设计达到降噪的效果。

第二类噪音是通过AEC回声消除法(即对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,将回声估计值从话筒的输入信号减去,最后达到消除回声的目的)。

第三类是针对空调、胎噪这种有固定频率的噪音,需要采用软件算法来消除。

在汽车实际驾驶过程中,遇到的噪音干扰只会更加复杂和多变。现在的降噪方案也并不是完美的,至少从技术上来说还有很大的提升空间。

其实车载语音面临的技术难关远不止降噪和识别,比如,在拾音后要如何识别语义进行解析?解析之后如何对接更多丰富的信源,让车载语音的适用范围变得广泛,这其中包括对声纹、性别和场景的识别,也就是车载语音交互的情感化和智能化。

不过,在期待车载语音变得更加聪明之前,我们还是先寄希望于车载语音能够听得见听得懂。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分