语音控制不是魔术，而是设计

efwedfd 2022-07-14 1503

电子说

1.4w人已加入

描述

由于硬件和软件的进化突破，语音用户界面或各种尺寸和价格点的支持 VUI 的产品现在都可以推向市场。与直到今天定义语音控制体验的“对着麦克风说话并等待”模型不同，新系统现在可以以最终用户谨慎甚至不可见的方式嵌入到产品中，并具有即时响应时间，而不是“ t 体验云延迟。

在评估智能扬声器和云的语音控制替代方案时，产品开发人员面临着新的机遇和挑战。开发人员必须考虑尺寸和位置，因为高度微型化的设备被嵌入到家具和电器中。将语音应用程序与边缘机器学习相结合对于让产品随着时间的推移变得更加智能是必要的。同时，设备也越来越依赖电池供电，需要开发人员进行工程设计以实现最佳能源管理。最后，开发人员必须考虑用户对功能的期望。对于消费者来说，精心设计的语音控制感觉无处不在，能够听到角落和穿墙的声音。所有这些以及更多内容汇集了在构建支持 VUI 的产品时必须考虑的几个设计元素。

语音控制 2.0 更自由的方面之一是可以自由地说出语音命令，而无需附近的智能扬声器。集成在智能家居设备中的语音可以使整个家庭成为一个可听区域，在识别唤醒词或其他可定义的声音时随时可用。专门的硬件和软件用于产生准确的远场音频捕获。

设计技巧

为了在远场环境中有效地捕捉声音，一些设计技术开始发挥作用，包括：端口方向：声学端口是可以在没有物理障碍的情况下接受音频信号的地方。端口的位置（顶部或底部）由单个设备的外形尺寸决定。为了简化设计，声学端口通常位于麦克风附近，如下所示。但是，端口孔应与扬声器和其他声学噪声源（例如电机和放大器）足够远，以最大限度地减少麦克风输入处的不需要的信号。

设计方法

图 1. 顶部和底部加载声学端口配置的横截面（来源：Knowles）

麦克风阵列和波束成形：使用多个麦克风称为“阵列”。在任何给定时刻，麦克风阵列都会同时听到来自各个方向的声音。除了口头命令外，他们还会听到家中的其他声音和动作。通过一种称为波束成形的技术，可以对麦克风阵列进行编程，以选择性地捕获来自一个方向的声音，同时拒绝来自其他方向的声音。波束成形算法的最终结果是选择性地调谐出来自所需方向的信号以外的信号。波束成形是数字信号处理链中的第一步。

数字信号处理 (DSP) 算法：DSP 是任何语音控制系统的基石。这就是想要的音频信息的意义——捕捉它、聚焦它、净化它、放大它——这样音素就可以发出文字、命令和噪音，而不会破坏这个过程。DSP 几乎用于语音交互的所有阶段，从音频捕获和语音增强到语音处理。

设计方法

图 2. 远场语音拾取（来源：Jerry Lu）

以便利为设计理念

除了针对功能进行设计之外，支持 VUI 的设备还需要针对便利性和可用性进行设计。唤醒词的两个主要设计考虑围绕能源管理和处理能力。由于 VUI 必须始终处于“侦听”模式以等待唤醒词，因此电池供电的 VUI 和 VCD 必须设计用于极低的能量消耗以及立即唤醒。此外，设备在过滤掉不需要的声音的同时区分想要的语音命令的能力需要不可忽视的处理能力，这需要准确性和即时性。包含强大音频边缘处理器的产品现在可以提供计算能力和低功耗、低延迟操作，从而实现即时用户体验。

即使在今天的早期阶段，语音控制的爆炸式增长也充分证明了智能家居中语音控制的市场机会。智能家居的支柱任务，包括安全、能源管理、娱乐和高级安全，都通过语音控制变得更简单、更容易访问。语音最终可以作为整个智能家居的统一控制器，从房子的任何房间发出命令……如果它们的设计考虑到用户并利用语音控制技术的重大进步。

审核编辑黄昊宇

打开APP阅读更多精彩内容