将语音到文本推理模型压缩到小型 MCU

王静 2022-07-21 549

电子说

1.2w人已加入

描述

来自加拿大初创公司的新技术意味着用于自然语言处理的 AI 模型可以在小型 CPU 甚至微控制器上高效运行。语音控制功能，现在通常通过互联网连接到云来完成，现在可以添加到各种设备中。

初创公司 PicoVoice（加拿大温哥华）推出了一个紧凑的语音到文本推理引擎，可以在最少的计算资源上运行。该公司表示，与竞争的边缘自然语言处理解决方案相比，PicoVoice 技术在计算和内存方面使用的资源要少一个数量级。这可以在各种设备上启用语音识别，而无需将任何数据发送到云端。

虽然云端处理模型对于亚马逊 Alexa 和 Google Home 等助手来说是众所周知的，但它可能无法转化为需要严格隐私或低成本的边缘设备中的语音识别。

PicoVoice 创始人兼总裁 Alireza Kenarsari-Anhari 表示：“随着[支持语音的] 设备变得越来越普遍，在服务器端处理所有内容在财务上将无法正常工作。” “计算资源不是免费的。要为所有东西制作语音界面，你需要让它足够便宜。在设备上运行是做到这一点的唯一方法。”

例如，根据 Kenarsari-Anhari 的说法，使用公共云服务的声控咖啡机，如果每天使用 10 次，每台设备每年的成本约为 15 美元。

“如果您使用咖啡机 CPU 上已有的资源，您可以免费执行此操作，”他说。

根据具体的应用，在边缘执行语音识别还可以提供更好的延迟和可靠性。

语音激活助手，如 Amazon Alexa，使用云进行自然语言处理，但这种模式可能不适用于更便宜的设备（图片：Loewe Technologies

语音转文本

PicoVoice 的新产品是一种用于语音到文本转录的机器学习模型，它在小型 CPU 上运行，就像 Raspberry Pi Zero 上的 ARM11 内核一样。该模型可以理解大约 200,000 个英语单词，单词错误率与基于云的家庭助手相当。这可以用于需要云外转录能力的设备。

“市场上有一些活动围绕捕获或总结公司会议中发生的事情，”Kenarsari-Anhari 说，引用了不想将专有信息提交到云中的公司，或者有大量数据需要转录的公司，在云中做这件事的成本太高了。

语音到文本引擎加入了该公司的两个现有产品。第一个是唤醒词引擎，可以定制为使用迁移学习快速、廉价地接受任何唤醒词。

第二个是用于设备的语音到意图引擎，可以理解有限域内的语音命令（例如要求打开或关闭灯）。

“如果我有一个定义明确的域，并且用户要在该域中发出语音命令，我们可以在该域中进行自然语言理解，并且我们可以非常有效地做到这一点，整个模型小于半兆字节。这就是为什么我们可以在低于 1 美元的 MCU 上做到这一点，”Kenarsari-Anhari 说。“如果客户想要制造智能冰箱，并使用一组定义的语音命令，我们将为该特定应用程序训练模型，然后他们将其部署在他们的冰箱中，并向我们支付版税。”

这个怎么运作

为了在小型 CPU 上运行自然语言处理模型，PicoVoice 发明了一种训练模型的新方法，使模型更小，计算效率更高。

“我们查看目标设备上的指令集，并尝试找到使用这些指令有效实施的数学运算，”Kenarsari-Anhari 说。“我们用不同的数学运算模拟矩阵乘法，使用该设备上的指令来实现更有效。”

这意味着经过训练的模型是特定于设备的，因为它们取决于所使用的确切指令集，但他说，在实践中，绝大多数音频处理器仅基于三个选项（ARM、Tensilica HiFi 和 Ceva TeakLite）。

Alireza Kenarsari-Anhari
（图片：PicoVoice）

“我们在这三种不同类型的 CPU 上找到了指令，我们可以在其中非常有效地实现模拟矩阵乘法的东西，”他说。“我们可以针对这三个不同的目标训练模型，但是我们针对 ARM 训练模型的方式与针对 Tensilica HiFi 训练模型的方式不同。从用户的角度来看，[模型] 提供了相似的性能，但底层的数学公式不同，这导致在目标设备上的高效执行。”

虽然 Kenarsari-Anhari 拒绝进一步详细说明 PicoVoice 使用了哪些指令，但他表示基本概念类似于位于西雅图的 Xnor，后者使用 XNOR 指令加速计算机视觉模型。然而，与基于循环神经网络 (RNN) 的加速语音模型相比，通常基于卷积神经网络 (CNN) 的加速视觉模型是一项更简单的任务。

他解释说，对于查看相机图片的 CNN，模型看到的内容是有限的，但 RNN 包含时间的概念。

“通过语音，当我说话时，你的大脑会保存我所说的历史，并用它来推断我现在所说的，”他说。“加速 RNN 更难的原因是因为没有记忆可以帮助你避免复合错误。加速模型中通常有更多的噪声，而对于 RNN，噪声会随着时间的推移而累积，使神经网络变得不稳定。”

收入来源

PicoVoice 的“不到 10 人”核心团队大部分来自亚马逊，其中包括 2018 年 1 月创办公司的 Kenarsari-Anhari。PicoVoice 根据工业研究援助计划 (IRAP) 获得了加拿大国家研究委员会的资助，但迄今为止没有其他外部资金。

Kenarsari-Anhari 说，不筹集资金的决定使公司有时间“解决实验开发和应用研究的基本问题”。

该公司已经从包括 LG、惠而浦和 Local Motors 在内的众多客户那里获得了收入来源。

审核编辑黄昊宇

打开APP阅读更多精彩内容