语音控制的算法和硬件功率上升

龙献益 2022-07-15 1772

电子说

1.4w人已加入

描述

语音控制和语音界面已经开始无情地渗透到几乎所有的消费边缘设备类别。语音识别算法和 AI 加速器硬件的进步意味着该技术甚至可以用于智能家居设备（甚至是一些愚蠢的设备）等功率和成本受限的应用程序。

从用户端来看，智能家居设备语音控制背后的驱动力是显而易见的。

PicoVoice 首席执行官 Alireza Kenarsari-Anhari 告诉 EE Times：“易用性和便利性是目前的主要驱动力。” 很容易想象当你想要一杯咖啡时，你可以从办公桌上对着家庭办公室的咖啡机大喊大叫，或者拿着一篮湿衣服向滚筒式烘干机口述订单。

我们假设像这些非便携式的智能设备可以永久访问家庭的 WiFi 连接——那么为什么不在云中进行这种语音处理呢？

在这种情况下，边缘人工智能的趋势主要是由隐私驱动的，Kenarsari-Anhari 说这是消费者的担忧，但对一些企业来说是必须的。可靠性是另一个驱动因素：“如果您的 WiFi 不工作，您的洗衣机停止工作是否有意义？” 他说。

在某些情况下，延迟也很重要；某些应用程序确实需要语音工作负载处理的实时保证，例如游戏。

成本是语音边缘处理的另一个重要驱动因素，因为在云中处理这些语音数据需要花钱。每次使用云 API 时都付费的商业模式不适用于家电和消费电子等成本低且每天可能多次使用的用例。

PicoVoice 的 AI 语音到文本推理引擎被设计为在低于 1 美元的微控制器上独立于云运行，旨在在原本不可行的应用程序中实现语音控制。这可能包括消费类可穿戴设备和可听设备，它们正处于需要基于微控制器的语音解决方案可以实现的功率效率和成本效率的交叉点。Kenarsari-Anhari 说，功率和成本优化的解决方案还可以释放工业、安全和医疗应用的机会。

该公司最近推出了 Shepherd，这是一个用于在微控制器上构建语音应用程序的无代码平台，可与该公司的模型创建软件 PicoVoice Console 配合使用。Shepherd 支持 ST 和 NXP 的流行 Arm Cortex-M 微控制器，并支持正在开发的其他设备。

“我认为语音是一个界面——如果你可以在不编码的情况下构建你的 GUI 或网站，也许使用 WordPress，以类似的方式构建语音界面是下一个合乎逻辑的步骤，”Kenarsari-Anhari 说。“Shepherd 正在授权产品经理和 UX 设计师构建原型并快速迭代，但我们的目标是扩大其目标用户群。如果每个人都可以建立自己的助手会怎样？将其命名为他们想要的名称 - 而不是 Alexa！——并赋予它他们想要的个性。”

虽然开发自然语言处理模型并在没有专业软件的情况下实现它们是完全可能的，但这条路线并不适合所有人。

“当然可以——苹果、亚马逊、谷歌和微软做到了，”他说。“这真的是关于一个企业是否有资源，是否致力于围绕它建立一个组织，是否有能力等待几年。”

未来的趋势

语音正在成为下一代技术用户的首选界面，Syntiant 的首席执行官 Kurt Busch 在去年夏天接受 EE Times 采访时表示。

Busch 描述了他最小的孩子是如何使用智能手机上的语音界面与他的朋友发短信的，他可以阅读，但对于写作和拼写还太小。

“他的哥哥姐姐们发短信，但他这一代人比他们早几年有了手机，”布施说。“随着时间的流逝，对于他这一代和年轻一代来说，他们的默认界面是与它交谈。”

Busch 的观点是，语音将成为“未来的触摸屏”，设备内处理首先在具有键盘或鼠标的设备中提供快速响应的界面，然后在白色家电中提供。

Syntiant 的芯片是专门的 AI 加速器，旨在处理功耗预算低至极低的消费电子设备中的语音 AI 工作负载。迄今为止，这家初创公司已在全球出货超过 1000 万颗芯片，其中大部分已进入手机以实现始终在线的关键字检测。最新的 Syntiant 芯片NDP120可以识别“OK Google”等热词，以低于 280 µW 的功率激活 Google 助手。

在未来，Busch 还看到语音控制能够为每个人实现连接和访问技术。

“我们将声音视为技术的伟大民主化者，”布希说。“世界上有 30 亿人每天靠 2 美元过活。我的假设是那些人没有互联网接入，可能没有通过教育系统。这里的自然界面是[speech]。这就是您如何将技术带入当今未与技术交互的第三个世界。我们看到发展中国家对语音优先应用程序产生了浓厚的兴趣，以获取以前可能无法访问的社会群体，不仅从费用的角度来看，而且从舒适的角度来看。”

市场分割

Knowles 的物联网高级总监 Vikram Shirastava 告诉 EE Times，一个与语音一样快速增长的市场的危险在于，它可能会迅速变得极其分散，而不仅仅是硬件产品线。

“市场变得支离破碎，比如说，使用的是什么语音识别引擎？” 希拉斯塔瓦说。“市场会变得支离破碎，这取决于您是与电视 SoC 集成还是内部是简单的 MCU，例如微波炉。您会根据操作系统或声学环境获得碎片——它只是家吗？是外面的门铃吗？不可能有一种万能的解决方案。你必须找到这些垂直领域的共同点，并尝试相应地解决语音整合问题。”

Knowles 有一个基于 DSP 的语音控制解决方案，它打算为不同的垂直行业推出版本。它的方法是将市场碎片归为具有共同点的市场——例如，家庭控制、电视条形音箱和遥控器可能属于同一组——然后开发针对该组应用进行优化的解决方案。Shirastava 将这种方法称为“比统包低一级”，它提供统包的可扩展性，但增加了一些灵活性。

“我们必须有一些不同的版本来解决这种碎片化的某个方面，以便我们能够覆盖我们想要追求的垂直领域，”他说。

Knowles 最近发布的 AISonic 蓝牙标准解决方案是一款用于蓝牙连接设备（如智能扬声器、智能家居设备、可穿戴设备和车载语音助手）的语音识别开发套件。该套件基于 Knowles 的 IA8201 双核 DSP 芯片，该芯片专为神经网络处理而设计，功耗远低于应用处理器。例如，该芯片可以在 50 mW 以下同时处理用于关键字定位、源分类、波束形成、声学回声消除 (AEC) 和源方向估计的单独 AI 模型。这是通过在 Tensilica DSP 内核上用于音频和 AI 处理的近 400 条自定义指令的指令集扩展实现的，这反过来又允许降低时钟频率以节省功耗。

语音最终会成为大多数消费类电子产品的默认用户界面吗？看起来确实是这样。先进、高效的 AI 语音控制算法、使开发人员能够轻松集成语音的开发环境以及不断增长的能源和成本效益硬件解决方案生态系统的组合已经出现，使这一切成为可能。

审核编辑黄昊宇

打开APP阅读更多精彩内容