语音命令系统的低功耗解决方案三

描述

便携式产品中语音命令的软件算法

允许始终在线、始终收听的语音命令产品运行的算法必然是复杂的。他们必须24/7/365对唤醒词保持警惕;可靠地识别唤醒词;尽可能将用户的声音与周围的噪音隔离开来;并产生足够干净的信号,供语音识别引擎使用。有许多不同的算法在起作用,所有这些算法都必须进行调整以适应产品的设计和应用。便携式产品的设计和功耗要求可能会影响这些算法的功能。

基本算法结构

下面是语音命令算法包的基本组件。在这里,它们按从麦克风端到最终信号输出的顺序呈现。

声音探测器:通常,来自单个麦克风的信号使用比较器进行监控。当信号电平超过特定阈值时(例如当用户说出唤醒词时),比较器会发送命令以打开系统其余部分的电源。此功能在家用产品中可能不是必需的,在家用产品中,功耗不是问题,并且可以随时为更多的系统供电,但它对便携式产品至关重要,因为它允许关闭更多组件以节省电源。此功能还必须快速发生,以便系统能够接收唤醒字。例如,上面引用的Vesper VM1010,麦克风在50 μs内唤醒,远远小于在任何关键字中说出第一个字母所需的时间。

降噪和滤波:为了提高声音检测功能,它有助于过滤掉声音,例如来自汽车,HVAC系统和风的噪音,这些声音显然不是人类的声音,因此语音识别系统可以安全地忽略。通过麦克风的选择、产品的物理设计或音频处理,产品可以(如上面引用的 Vesper VM1010 麦克风)过滤掉人类人声范围(大约跨越 100 Hz 到 6 kHz)之外的声音。音频处理还可以消除重复的声音,例如冰箱噪音。但是,这些功能可能需要打开处理器电源,这可能会影响便携式产品的电池寿命。

唤醒词检测:一旦系统检测到声音并通电,它必须录制传入的音频并将其与唤醒词的存储数字文件(例如亚马逊Echo的“Alexa”)进行比较。如果传入音频的波形与存储的文件足够接近,则设备将接受语音命令。

到达方向检测:为了使麦克风阵列专注于用户的声音,它必须首先确定用户相对于产品的位置。处理器通过比较来自麦克风的信号的相位信息来确定到达方向。它还必须包括拒绝来自附近物体的用户声音反射的优先逻辑,并且必须调整其工作阈值以补偿环境噪声水平,以便环境噪声不会产生错误的方向线索。请注意,在耳机等产品中,可能不需要确定到达方向,在这些产品中,用户嘴巴相对于麦克风阵列的物理位置是已知的。

波束成形:麦克风阵列的原因是可以处理来自多个麦克风的信号,以使阵列变得定向;来自确定的到达方向的声音被接受,而来自不同方向的声音被拒绝。对于某些产品,例如耳机和汽车音频系统,用户的声音相对于麦克风阵列的方向是已知的,因此波束成形器的方向可能是永久固定的。在智能扬声器、遥控器和家庭自动化墙板等设备中,必须确定波束成形器所需的聚焦方向,并调整阵列的响应以聚焦于用户的方向。

回声消除:回声消除会抑制来自设备本身的声音(如音乐或公告),以便阵列可以更清晰地拾取用户的声音。由于原始信号和设备内部扬声器的响应是已知的,因此通过麦克风返回的信号可能会被拒绝。然而,来自周围物体的这种声音的回声 - 这是时间延迟的并且频率内容改变 - 也必须被抑制。AEC 在头戴式耳机和入耳式等产品中不是必需的,因为来自产品扬声器的声音是有限的,并且通常没有足够的声音泄漏出来以影响产品麦克风的性能。

本地命令集识别:由于便携式产品可能无法像今天的智能扬声器那样依赖Internet连接,因此它们可能需要在没有外部服务器帮助的情况下自行识别一定数量的基本功能命令。这些命令通常仅限于基本功能,如播放、暂停、跳过曲目、重复和应答呼叫。识别这些命令的工作方式与唤醒词检测的工作方式相同。但是,即使命令集有限,与只需要识别其唤醒词并将其他语音识别任务卸载到外部连接 Internet 的服务器相比,对本地命令集识别的需求也会增加处理器的负载。

算法调优

上述每种算法的功能都很复杂,必须进行调整以适应应用,特别是在便携式产品中,其环境和使用模式可能与家用产品不同。以下是必须调整以获得最佳语音识别准确性的算法函数。

检测/唤醒阈值:声音检测和唤醒词检测的阈值级别必须设置得足够高,以最大程度地减少设备的错误触发,但又要足够低,以便用户可以在正常说话级别对设备进行寻址。特别是在便携式产品中,可能需要动态调整这些电平,因此性能会进行调整以补偿不同级别的环境声音。动态补偿的功能本身必须进行调整。

降噪/降噪:根据应用的不同,可能会遇到不同类型的噪声,并且可以对设备进行调整以抑制它们。例如,制造商知道任何给定汽车在不同速度下的道路和发动机噪音的频谱,因此可以调整语音识别系统以拒绝这些声音。降噪/消除算法也可以动态运行,适应不断变化的环境,但这种动态功能也必须进行调整。

波束成形器波束宽度:波束成形器的波束宽度越紧,它就越能抑制环境声音和来自其他物体的用户声音反射。但是,如果用户稍微移动,则将波束宽度设置得太紧将导致设备拒绝用户的声音。在耳机和头戴式耳机等产品中,用户语音的到达方向没有变化,光束宽度可以设置得很紧,但在遥控器和家庭自动化面板等产品中,必须设置得更宽,以适应用户说话时的移动。

唤醒/睡眠策略:如前所述,最大限度地降低功耗的目标之一是使设备尽可能频繁地进入睡眠状态,并使其尽可能长时间保持睡眠状态。但是,此目标需要权衡利弊。如果设备在使用后进入睡眠状态的速度太快,则可能会错过唤醒词后面的命令,并要求用户再次说出唤醒词,这可能会使用户感到沮丧。如果设备保持唤醒的时间超过必要的时间,它将消耗比所需更多的功率。

DSP概念的语音UI算法经过专门设计,可以轻松调整上述所有功能,并创建自定义处理配置,以适应任何便携式或电池供电的语音命令产品。信号处理链可以通过简单的图形界面进行配置,使用400多个可用处理模块的任意组合(图1)。这些模块可以通过熟悉的屏幕旋钮和按钮进行调整,其直观方式与机架安装式音频处理器的调整方式相同。

处理器

[图1|显示使用 DSP 概念语音 UI 的音频处理链的图形配置的屏幕图像]

由于功耗要求和外形尺寸限制,大多数便携式产品中使用的音频处理器的功能通常低于家用产品中使用的处理器的功能。因此,产品设计团队在为语音命令产品设计信号链时必须谨慎,不要超过可用的处理能力。然而,要实现最佳性能,他们需要充分利用可用的处理方式。由于 DSP 概念语音 UI 算法已经针对运行它们的处理器进行了优化,因此不需要重写它们以适应特定的处理器,也不需要调试。信号链可以实时测试,也可以针对不同的处理器进行测试,这使得为应用选择合适的处理器变得更加容易和快速。

DSP 概念语音 UI 的可调谐性和多功能性带来了明显的性能优势,这可以在 DSP 概念网站的演示视频中看到。

结论

创建始终在线的语音命令产品,这些产品可以使用电池供电运行数小时到数月,同时实现与当今流行的智能扬声器类似的功能,这是相当大的挑战。但是,由于本文中描述的产品,这些挑战现在是可以控制的。正确选择组件,结合仔细调整以适应应用,可以产生便携式语音命令产品,为消费者提供令人满意和可靠的体验。看看这些技术将为未来的便携式和电池供电技术产品带来哪些新功能,便利性和功能将会很有趣。

审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分