首先我们简单聊聊什么是麦克风阵列。
麦克风阵列 ≠ 一堆麦克风
风吹麦浪,高山流水,蛙声虫鸣......人类能听到的声音大约有40多万种,频率在20至20000赫兹之间。而在嘈杂的环境下,机器想要听懂声音,它必须能够听的更远更清晰,人类可以带上助听器,机器需要什么呢?麦克风阵列就充当了助听器这样的角色。
麦克风阵列就是由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。
如果把语音识别看成一个接收信息、解析信息、做出反馈过程的话,麦克风阵列解决的是听不听得到、多远距离属于合理范围、不受噪音影响的问题。
单麦克 vs 麦克风阵列
单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但如果声源距离麦克风距离较远,并且存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。这样就无法实现声源定位和分离,因为还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。
为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。
一个麦克风不足以接收全部信息,但麦克风阵列却可以实现声源定位、信号拾取、信号分离、去除噪音影响等。
麦克风结构和麦克风数量
在麦克风阵列里,麦克风的数量,从2个到上千个不等。复杂的麦克风阵列主要应用于工业和国防领域,而消费级领域的麦克风数量通常较少,一般有2、4、5、6、8等几种形式。通常,这组麦克风会按照一定几何结构摆放,比如线形、环形、球形等,比如讯飞开放平台就研发出二麦线性阵列、四麦线性阵列和六四麦线性阵列。
适用场景解析
可别小看这些结构和数量,不同的组合都对硬件产品来说有着千差万别的效果。比如双麦克风阵列的结构简单,成本低、容易实施、功耗低等特点让它更容易在家电产品中实现落地。目前国内主流家电厂商应用语音交互技术的产品中,海信电视、美的空调等选择的大都是双麦克方案。
不过在机器人领域里,对声源定位、降噪、识别率的要求比较高,一般都会使用环形多麦克方案。比如新松机器人使用的是讯飞四麦克风阵列,穿山甲机器人则选用六麦克风阵列。(ps:六麦是环形360拾音,需要水平放置,一般安置在机器人头顶的位置,而四麦是180度正面的拾音,竖直放置,一般安置在机器人的胸前)。那么车载、智能音箱等领域又如何选择这些方案呢?自己的产品究竟更适合哪种呢?
5月25日,AI公开课第四期我们就将为大家具体介绍。另外麦克风阵列的关键技术(噪声抑制、混响消除、声源定位等)也会在本期公开课展开详细解读。
全部0条评论
快来发表一下你的评论吧 !