超低功耗VAD的语音命令系统的设计方案

电子设计 2021-04-01 6944

描述

语音助手和集成已在投放市场的大多数产品，设备和技术中实现。话虽这么说，这些有用的语音助手始终会监听激活/唤醒单词（例如“ okay Google”或“ Alexa”），这通常会消耗大量电量，这已不是什么秘密。在当今技术日新月异的世界中，必须考虑其对能源消耗的影响。

本文提供了使用语音活动检测（VAD）的低功耗，始终在线语音命令系统的设计注意事项。在选择创建易于使用，节能的语音用户界面（VUI）所需的组件时，它探讨了取舍和注意事项。

VAD功能可在聆听唤醒词之前检测环境中的人声，这意味着当没人在家时，您的语音助手将不会浪费不必要的能量。据估计，全球使用的数字语音助手有42亿，到2024年，这个数字有望翻一番。将该技术应用于语音助手软件和其他依赖语音集成的产品，将大大降低其能耗。使用语音助手的人。

有几种用于实现VUI系统的硬件体系结构。通常，典型的语音用户界面实现由麦克风组成，麦克风可以是单个麦克风，也可以是与音频处理器相连的麦克风阵列，用于捕获和处理语音。

可以在边缘音频边缘处理器，具有内置音频边缘处理器的智能麦克风或标准应用处理器（AP）上处理输入的音频流。边缘音频处理器针对音频信号的低功耗和低延迟处理进行了优化。除了提供对输入音频的专门处理之外，边缘音频处理器还可以用于后处理音频输出信号。如果VUI系统是云连接的，则音频边缘处理器还可以通过具有无线连接性的主单芯片系统（SoC）与云VUI接口进行通信。本文介绍了VUI系统的两种不同实现，以及它们各自的权衡。

超低功耗VAD（语音活动检测）

图1所示的体系结构使用模拟信号路径支持超低功耗VUI，该路径包括模拟麦克风和模拟比较器以提供唤醒触发。当检测到声音活动时，模拟信号链会产生一个中断，以唤醒音频处理器以进行语音捕获。该设备还可以包括“一键通”功能，从而用户按下按钮即可唤醒音频处理器。

麦克风

图1.超低功耗，始终在线的VUI硬件信号链，无需进行前滚动缓冲即可进行远程控制。

模拟唤醒麦克风必须始终在聆听环境，因此该麦克风以及比较器必须消耗很少的功率。Knowles IA8201是高效音频处理器的一个示例，在最简单的唤醒触发模式下其功耗小于1mW，并且具有1MB的存储器用于高级音频处理。尽管图1中所示的方法为设备（例如，遥控器和可穿戴设备）中始终在线的VUI提供了一种简单的低功耗AAD（声学活动检测）方法，但它具有局限性。这种实现方式会唤醒音频处理器的任何声音信号，并且在嘈杂的情况下会导致总体系统功耗过高。还，与云连接的语音用户界面系统要求在捕获唤醒字之前的一段时间内获取音频数据，以提高唤醒字检测的准确性。这通常称为预滚动，是支持Alexa的设备和其他智能扬声器设备的必备条件。

麦克风

图2.支持诸如智能扬声器之类的设备的前置滚动缓冲的架构。

图2显示了一种支持针对智能扬声器等设备的前置滚动缓冲的体系结构。这些设备通常具有更大的电池，并且/或者一次充电可能不需要多个月的电池寿命。VUI系统始终处于打开状态，可以收听环境并在循环缓冲区中记录预滚动。预卷的长度通常约为500毫秒的音频数据，用于校准环境噪声水平。

有几种不同的方法可以设计永远在线的前端体系结构。音频处理器的选择取决于所用麦克风的数量，以及它们是模拟还是数字。

上面显示的体系结构使用Knowles IA611进行语音活动检测，使用SPH0655LM4H-1 Cornell II数字麦克风进行波束成形，并使用Knowles IA8201进行音频处理。Knowles IA611是一款智能麦克风，可为系统设计人员带来好处，如以下部分所述。

麦克风选择

对于图1所示的体系结构，当检测到声音活动时，将单个模拟麦克风和比较器用作触发输入，以唤醒音频处理器。唤醒麦克风应为低功率模拟麦克风，其信噪比（SNR）最好高于62 dB。Knowles SiSonic MEMS麦克风产品组合为唤醒麦克风提供了多种选择。例如，SPV1840LR5H-B Kaskade模拟麦克风是一个不错的选择，当打开时仅消耗45µA。包括麦克风，放大器和比较器在内的始终在线的模拟路径消耗的电流小于67µA。市场上有一些压电麦克风，它们的始终接通功率很低（10µA），但是它们通常具有低SNR，这会影响系统性能。

对于图2所示的具有预卷缓冲功能的体系结构，具有嵌入式音频处理器和足够内存以在2秒的循环缓冲区中连续捕获语音数据的麦克风（例如Knowles IA611）是始终在线语音活动的可行选择。检测。它还带有移植语音触发器和命令的生态系统，例如亚马逊的Alexa。当检测到关键字时，预滚动缓冲区和发出的语音音频都会发送到云自动语音识别（ASR）引擎。IA611的始终开启的语音唤醒功率为0.39 mA（电池1.8V，效率为90％），使其成为电池供电设备（如蓝牙扬声器）中语音用户界面的理想选择。该设备还接受来自数字麦克风的PDM输入，

虽然这种始终接通的功率对于预卷式应用是可以接受的，但对于图1所示的非预卷式架构，也值得考虑。如前所述，模拟唤醒麦克风将触发任何传入声音并打开扬声器。音频处理器。在嘈杂的环境中（例如在电视开机时），这可能会成问题，因为那里会有许多虚假的唤醒，导致功率的大量浪费。如果使用语音活动检测而不是低功率模拟唤醒麦克风，则系统仅在检测到关键字时才打开。从逻辑上看，为什么在嘈杂的环境中使用语音活动检测麦克风可能比简单的模拟唤醒麦克风更有效。

图3显示了模拟数据，该数据比较了使用IA611上的VAD的典型电视遥控器与竞争性的压电低功率AAD麦克风和音频处理器在不同声活动开启时间下的电池寿命天数。当电视或其他家用电器打开时，或在其他情况下，如鼓鼓声等时，可能会出现声音活动。如图3所示，在大约3小时处有一个交叉点，因此使用模拟AAD的功率优势竞争对手的麦克风上的IA611上的语音活动检测消失了。

在声音活动开启时间为五个小时的情况下，语音活动检测解决方案比基于竞争的基于AAD的解决方案多了八天的电池寿命。为了充分发挥这一优势，根据尼尔森（Nielsen）在2017年发布的一项研究，美国成年人每天看电视的时间将近八小时。随着对联网设备（例如智能电视，游戏机和其他多媒体设备）的需求不断增加，在典型的美国家庭中，声音活动的小时数也可能会继续增加。使用基于智能VAD的唤醒将帮助系统设计人员开发更节能的VUI系统。

麦克风

图3. VAD与AAD的远程控制电池寿命。

结论

从智能家居，酒店，数字工作场所，语音支付，智能能源管理，边缘语音和医疗保健，一直到改变厂房的工业物联网应用，语音都为新技术增加了灵活性，效率，可持续性和采用接受性。

用于语音用户界面设计的各种硬件体系结构以及麦克风部分，根据最终设备的应用程序和设计人员的喜好，各自满足的需求略有不同。例如，支持Alexa的设备和智能扬声器需要具有预卷缓冲功能的体系结构。

电子工程师和设计师必须仔细评估终端设备将如何利用语音，他们希望访问的功能，并据此确定正确的架构和麦克风组件，这一点很重要。

Raj Senguttuvan 在面向消费者和工业应用的新技术开发，早期业务开发以及为Analog Devices和Texas Instruments等公司提供的项目管理方面拥有超过15年的经验。在担任Knowles战略营销总监期间，他指导系统级开发，推动风险投资和合作伙伴关系以及IoT和消费者技术（包括音频处理器，算法，麦克风，传感器和接收器）的营销策略。Raj拥有康奈尔大学（Cornell University）的MBA学位和佐治亚理工学院（Georgia Institute of Technology）的电气工程博士学位。

编辑“hfy”

打开APP阅读更多精彩内容