历史书可能会将语音控制视为人机接口中最重要的进步。我们不再打字,不再指点,只需说出想要什么就可以了。这个领域的初期进展十分缓慢,直到智能扬声器的出现,让我们开始意识到了解决方案。现在,随着在手机、耳机、可穿戴设备和智能家居中识别功能和应用的改进,这场竞争已然开始。如今,最广为人知的解决方案依赖于少数提供商控制的平台和服务,但这种情况正在发生改变。语音激活可嵌入到任何地方,不仅可以定制,还可提高抗噪性,降低功率,扩大范围,而且在语音识别方面与大型平台一样有效。
消费类语音产品市场的历史饶有趣味,而语音识别功能在其中起着重要作用。FutureSource 显示,从 2008 年到 2012 年,语音体验主要集中在智能手机上,整体市场价值下降。从 2012 年到 2014 年,市场基本持平。然后,从 2015 年到 2018 年,主要受语音激活驱动,它再次以 15% 的复合年增长率增长。展望未来,Yole Développement 预计到 2023 年,复合年增长率至少为 30%,这主要得益于语音识别。这一增长将主要集中在智能手机上,其次是耳机和可穿戴设备、个人助理和智能家居功能(电视、电器等)。同一份报告得出的结论是,我们现在正进入智能语音的第二阶段,随着消费者对这种控制方法越来越满意,语音控制将变得越来越普遍。
无论部署在哪里,他们的目标都是增强实别能力。在智能手机或任何其他电池供电的设备中,一个明显的优势是支持始终在线聆听;在发出命令之前无需按下按钮。这就需要超低功耗的触发命令词检测,众所周知,这意味着硬件与软件的契合,以尽量降低待机功耗。当然,用户都希望为自己的品牌定制个性化触发命令词或短语的功能,并且可以支持多种语言,以便在其所在地区甚至国际市场上获得强大的渗透力。您仍然将后续命令传递给某个主要的语音识别提供商来识别请求。或者,也许不必。如果您的设备只需要对有限的词汇表提供支持,并且您的语音识别引擎可以满足该目标,则可能无需第三方的帮助。
另一个关键需求是在嘈杂的环境中进行识别,也许还有身份验证。语音识别所面临的挑战与目标识别不同。例如,在起居室或汽车中,可能会有多个声源:人们说话、电视和独立的音乐/无线电、室内外的噪音、以及房间或汽车内部表面反射的回声。隔离命令源、消除回声和降低背景噪声需要一些复杂的技术,这取决于多麦克风、波束成形和回声消除,以及噪声抑制。
当然,鉴于这些需求,CEVA 等公司已备好满足这些需求的可用解决方案。最近推出的 CEVA Whispro™ 语音识别产品解决方案就采用了在 CEVA DSP 平台上运行的,基于神经网络的软件。Whispro 已经支持“Alexa”和“Ok Google”作为触发命令词,并且可以在培训中进行自定义,以支持任何客户要求的触发命令词。它支持多种语言,可以处理多种语音触发。该方案在多噪声背景下进行培训,因此,识别具有嵌入的抗扰性,识别率大于 95%,每小时错误接受率小于 1 次,且无需进行云识别。
通过添加专门的语音拾取解决方案 CEVA ClearVox™,开发人员可实现多麦克风支持和波束成形,以改进远场语音拾取、消除回声和进一步降低噪音。Whispro 与 ClearVox 的组合可以在更远的距离内(最远 7 米),尤其是在嘈杂的环境中,也能够提供具有竞争力的触发识别。
全部0条评论
快来发表一下你的评论吧 !