新的数字麦克风允许完全强大的麦克风阵列

符筹荣 2022-07-28 3916

电子说

1.4w人已加入

描述

Vesper 麦克风的单层耐用结构使其免受空气中的颗粒和污染物引起的漂移和降解。

随着智能设备大战愈演愈烈，许多传感器公司的目标是为声控设备构建最好的麦克风阵列。随着此类设备的激增席卷消费市场，此类设备的需求量很大。先进的传感器公司被证明是该领域的创新者，他们引入了新技术来延长电池寿命、提高远场音频质量并抵御环境污染物。

先进的传感器公司Vesper就是这样的实体之一。其最新、最先进的麦克风VM3000是一款脉冲密度调制（PDM）输出麦克风，具有内置模数转换器（ADC），可转换 MEMS 传感器捕获的输入模拟信号进入数字领域。与需要外部 ADC 的模拟麦克风同类产品相比，数字麦克风可节省材料清单（BOM）和设计尺寸，以及更高的射频（RF）和电磁干扰（EMI）噪声抗扰度。

数字麦克风还可以在多种模式下运行，其中编解码器或应用处理器可以使用时钟频率定义麦克风的状态。例如，VM3000 提供四种此类功耗模式：睡眠（《1 µA）、待机（145 µA）、低功耗（400 µA）和正常（700 µA），具体取决于操作的时钟频率。图1为麦克风的状态图：

解码器

图 1. VM3000 数字 MEMS 麦克风的状态图。

麦克风上的左/右（L/R）选择引脚还允许在一对 VM3000 之间复用数据线，以形成立体声麦克风配置（单声道和立体声配置的典型时序图和应用电路可从数据表）。

独特的差异化

虽然 PDM 输出和多模式操作是当今市场上许多数字 MEMS 麦克风的典型特征，但与电容式同类产品相比，Vesper 的 VM3000 为嵌入式语音接口提供了独特的差异化。

让我们从 VM3000 麦克风的稳健性开始。VM3000 采用与 Vesper 的其他模拟麦克风相同的压电 MEMS 结构，使用单层压电晶体，对灰尘、水、湿气和其他环境颗粒具有鲁棒性。

在具有双板设计的电容式 MEMS 麦克风中，进入 MEMS 传感器的任何外来颗粒都可能被困在板之间，因此随着时间的推移会降低灵敏度和频率响应。随着阵列中各个麦克风的性能漂移，波束形成算法将这种差异视为方向性线索，使波束远离预期方向。覆盖声学端口的网格或薄膜会使 SNR 降低 2-3 dB，也增加了设计的成本和复杂性。

相比之下，Vesper 麦克风的单层耐用结构使其不受这些漂移的影响，并提供稳定的阵列而无需网格。图 2 显示了两种不同类型的 MEMS 麦克风在独立测试设施中暴露于灰尘之前和之后的频率响应比较。

解码器

图 2. 根据 JDEC 标准，电容式（左）和 Vesper（右）麦克风在灰尘暴露前后的频率响应测量。

有人可能会问，“既然电容式 MEMS 麦克风已经存在多年，为什么现在这很重要？” 答案在于在智能扬声器、安全摄像头、耳机、智能手机等语音激活设备中越来越多地采用麦克风阵列。现在强大的压电麦克风的模拟和数字版本都可用，开发人员可以放心，长期其阵列的长期稳定性，无论其芯片组上可用的接口如何。对于需要多个带有保护网或膜的麦克风的阵列，VM3000 是一个福音，因为具有 IP57 等级的 Vesper 产品不需要网/膜，从而实现更简单的设计和不变的性能，以及节省 BOM 。

与其他压电麦克风一样，VM3000 不需要电荷泵来产生偏置电压。因此，与电容式麦克风相关的 10 ms 启动和模式切换延迟相比，VM3000 可以在 200 µs 内从睡眠中唤醒，并在 100 µs 内切换不同的电源模式。

这种 50 倍的启动时间优势使语音激活系统能够以足够快的速度唤醒以捕获完整的唤醒词。相比之下，电容式麦克风的缓慢启动限制了整个系统的唤醒时间，从而影响了唤醒词检测性能。

对于启动时间的直观解释，请考虑图 3 所示的语音激活系统的简化框图。在此设计中，VM3000 与 Vesper 的零功率监听（ZPL）麦克风 VM1010 结合使用。

解码器

图 3. Vesper 的 ZPL 麦克风与 VM3000 数字麦克风相结合的简化语音激活系统。

VM1010 是一款模拟麦克风，仅当有任何声音活动超过预定义的声压级时才会从超低功耗睡眠模式中唤醒。此唤醒由处理器使用两个 GPIO 控制引脚控制：Dout 和 Mode。综上所述，当环境中有声音活动时，VM1010 从睡眠模式切换到正常模式，并在 Dout 上输出高电平。然后，Dout 信号驱动 DSP/编解码器上的时钟，进而设置 VM3000 上的 CLK 以将麦克风从睡眠中唤醒。

上述系统也进行了修改，以测量 VM3000 和具有可比声学规格的电容式麦克风的启动时间。图 4a 和 4b 显示了 VM1010 上 Mode/Dout 引脚的状态转换，以及每种情况下数字麦克风上的 CLK 和 PDM 数据引脚。当 VM1010 听到唤醒字时，Dout 从低变高，处理器在 8 µs 内设置模式引脚。PDM 时钟信号从 16 µs 开始（如图 4a 所示）以将数字麦克风从睡眠模式切换出来，并且 PDM 数据在 200 µs 内可在 DATA 引脚上使用，如图 4b 所示。

解码器

图 4a。使用 VM1010 和数字麦克风进行模式转换（为粒度单独显示）

解码器

图 4b。在示波器上测量的 VM1010 + VM3000 时序。（来源：维斯珀）

相比之下，图 5 显示电容式麦克风上的 PDM 数据仅在 CLK 变为高电平后 10 ms 可用。因此，DSP/编解码器必须等待这段时间才能接收 PDM 数据并执行额外的唤醒字处理。

解码器

图 5. VM1010 和电容式 MEMS 数字麦克风时序。（来源：维斯珀）

从实现的角度来看，这意味着 DSP 必须将电容式麦克风保持在低功耗模式之一，而不是切换回待机模式（典型电流为 50 µA），因为它无法以足够快的速度唤醒以服务于唤醒词检测请求。相比之下，Vesper 的系统可以在电流略低于 1 µA 的情况下长时间保持睡眠模式，同时根据需要在不到 100 µs 的时间内切换到高性能模式。

这种启动时间优势如何转化为唤醒词检测性能？为了进一步研究，Vesper 测量了唤醒词检测性能，以评估启动时间对错误拒绝率（FRR）的影响。

FRR 被测量为所有 50 种不同的唤醒词话语中错过的唤醒词的数量。在这些测试中，测量是在办公室类型的房间内进行的，环境安静，环境本底噪声为 30 dBA。头和躯干嘴模拟器（HATS）用于播放从 75 dB 到 98 dBSPL 的不同语音级别的话语。每个话语之间使用 30 秒的间隔，以确保整个系统（包括 VM1010 和 VM3000）在唤醒后切换到睡眠模式。图 6 显示了 FRR 性能与 VM3000 和电容式麦克风的比较。

解码器

图 6. 使用 Vesper（蓝色）和电容（红色）麦克风进行唤醒词检测。

在较高的声压级下，由于麦克风输入端的声级较高，两个麦克风的 FRR 性能相似。随着 SPL 水平的降低，唤醒缓慢的系统会受到惩罚，因为唤醒词中的第一个音节丢失了。结果表明，与 Vesper 的 ZeroPower Listening 技术结合使用时，VM3000 与电容式麦克风相比，关键字准确度提高了 2 倍。

总结

虽然数字麦克风为设计人员在编解码器周围布线和布线方面提供了更好的灵活性已被广泛接受，但 Vesper 独特的价值主张还提供了额外的设计灵活性和在启动时间方面的前所未有的优势。Vesper 数字麦克风产品组合的发展将是朝着强大而准确的语音激活设备的扩散迈出的一大步，即使在恶劣的环境条件下也可以运行。

审核编辑：郭婷

打开APP阅读更多精彩内容