关于对麦克风阵列的分析和介绍

讯飞开放平台 2019-09-27 9325

描述

首先我们简单聊聊什么是麦克风阵列。

麦克风阵列 ≠ 一堆麦克风

风吹麦浪，高山流水，蛙声虫鸣......人类能听到的声音大约有40多万种，频率在20至20000赫兹之间。而在嘈杂的环境下，机器想要听懂声音，它必须能够听的更远更清晰，人类可以带上助听器，机器需要什么呢?麦克风阵列就充当了助听器这样的角色。

麦克风阵列就是由一定数目的声学传感器（一般是麦克风）组成，用来对声场的空间特性进行采样并处理的系统。早在20世纪70、80年代，麦克风阵列已经被应用于语音信号处理的研究中，进入90年代以来，基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”，这项技术的重要性显得尤为突出。

如果把语音识别看成一个接收信息、解析信息、做出反馈过程的话，麦克风阵列解决的是听不听得到、多远距离属于合理范围、不受噪音影响的问题。

单麦克 vs 麦克风阵列

单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但如果声源距离麦克风距离较远，并且存在大量的噪声、多径反射和混响，导致拾取信号的质量下降，这会严重影响语音识别率。而且，单麦克风接收的信号，是由多个声源和环境噪声叠加的，很难实现各个声源的分离。这样就无法实现声源定位和分离，因为还有一类声音的叠加并非噪声，但是在语音识别中也要抑制，就是人声的干扰，语音识别显然不能同时识别两个以上的声音。

为了解决单麦克风的这些局限性，利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构（常用线形、环形）摆放的麦克风组成，对采集的不同空间方向的声音信号进行空时处理，实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能，进而提高语音信号处理质量，以提高真实环境下的语音识别率。

一个麦克风不足以接收全部信息，但麦克风阵列却可以实现声源定位、信号拾取、信号分离、去除噪音影响等。

麦克风结构和麦克风数量

在麦克风阵列里，麦克风的数量，从2个到上千个不等。复杂的麦克风阵列主要应用于工业和国防领域，而消费级领域的麦克风数量通常较少，一般有2、4、5、6、8等几种形式。通常，这组麦克风会按照一定几何结构摆放，比如线形、环形、球形等，比如讯飞开放平台就研发出二麦线性阵列、四麦线性阵列和六四麦线性阵列。

适用场景解析

可别小看这些结构和数量，不同的组合都对硬件产品来说有着千差万别的效果。比如双麦克风阵列的结构简单，成本低、容易实施、功耗低等特点让它更容易在家电产品中实现落地。目前国内主流家电厂商应用语音交互技术的产品中，海信电视、美的空调等选择的大都是双麦克方案。

不过在机器人领域里，对声源定位、降噪、识别率的要求比较高，一般都会使用环形多麦克方案。比如新松机器人使用的是讯飞四麦克风阵列，穿山甲机器人则选用六麦克风阵列。（ps:六麦是环形360拾音，需要水平放置，一般安置在机器人头顶的位置，而四麦是180度正面的拾音，竖直放置，一般安置在机器人的胸前)。那么车载、智能音箱等领域又如何选择这些方案呢？自己的产品究竟更适合哪种呢？

5月25日，AI公开课第四期我们就将为大家具体介绍。另外麦克风阵列的关键技术（噪声抑制、混响消除、声源定位等）也会在本期公开课展开详细解读。

打开APP阅读更多精彩内容