当语音控制和语音接口开始渗透到所有消费类边缘设备

454398 2021-03-30 1588

电子说

1.2w人已加入

描述

语音控制和语音接口已经开始几乎渗透到所有消费类边缘设备类别。语音识别算法和AI加速器硬件的进步意味着该技术甚至可用于功耗和成本受限的应用程序，例如智能家居设备（甚至有些笨拙的设备）。

从用户角度来看，智能家居设备中的语音控制背后的驱动因素很明确。

Alireza Kenarsari-Anhari（来源：PicoVoice）

PicoVoice首席执行官Alireza Kenarsari-Anhari表示：“易用性和便利性是目前的主要驱动力。” 想像一下，想要喝咖啡时，您会从桌子上大声喊叫到办公室里的咖啡机，或者拿着一篮湿衣服命令下达干衣机的命令。

我们假设像这样的智能设备（不是便携式设备）可以永久访问家庭的WiFi连接-那么为什么不在云中进行这种语音处理呢？

在这种情况下，走向边缘AI的趋势主要是由隐私驱动的，Kenarsari-Anhari表示，这是消费者关注的问题，但对于某些企业来说是必不可少的。可靠性是另一个驱动因素：“如果您的WiFi无法正常工作，让洗衣机停止工作是否有意义？” 他说。

延迟在某些情况下也很重要；有些应用程序确实需要对语音工作负载处理（例如游戏）进行实时保证。

成本是语音边缘处理的另一大推动力，因为在云中处理此语音数据需要花费金钱。每次使用云API时都要付费的商业模式不适用于家用电器和消费电子产品等用例，这些用例的成本较低，并且每天可能使用多次。

PicoVoice的AI语音到文本推理引擎旨在在低于1美元的微控制器上独立于云运行，旨在实现原本不可行的应用程序中的语音控制。这可能包括消费者可穿戴设备和可听设备，它们处于需要通过基于微控制器的语音解决方案实现的电源效率和成本效率的交叉点。Kenarsari-Anhari说，功率和成本优化的解决方案还可以释放工业，安全和医疗应用中的机会。

该公司最近推出了Shepherd，这是一个用于在微控制器上构建语音应用程序的无代码平台，可与该公司的模型创建软件PicoVoice Console一起使用。Shepherd支持ST和NXP流行的Arm Cortex-M微控制器，并同时支持其他设备。

Kenarsari-Anhari说：“我认为语音是一种界面-如果您无需编码即可构建GUI或网站，也许使用WordPress，则下一步的逻辑步骤就是以类似的方式构建语音界面，” Kenarsari-Anhari说。“牧羊人使产品经理和用户体验设计师能够构建原型并快速迭代，但我们的目标是扩大其目标用户群。如果每个人都可以建立自己的助手怎么办？命名为他们想要的名称，而不是Alexa！—赋予他们想要的个性。”

尽管完全有可能开发自然语言处理模型并在没有专业软件的情况下实现它们，但这条路线并不适合每个人。

他说：“当然可以，苹果，亚马逊，谷歌和微软做到了。” “这实际上与企业是否具有资源，是否致力于围绕它建立组织以及是否有能力等待几年有关。”

未来趋势

Syntiant首席执行官Kurt Busch在去年夏天接受EE Times采访时说，Voice正在成为下一代技术用户的首选界面。

库尔特·布希（来源：Syntiant）

布希描述了他的最小的孩子，他的孩子虽然可以读书，但是还太小，不能写作和拼写，却可以通过智能手机上的语音界面与朋友们发短信。

“他的哥哥姐姐发短信，但他那一代人的电话比他们早了几年，”布希说。“随着时间的流逝，对于他这一代和更年轻的一代，他们的默认界面是与之对话。”

Busch的观点是，语音将成为“未来的触摸屏”，其中的设备内处理功能首先会在具有键盘或鼠标的设备中提供快速响应的界面，然后在白色家电中提供快速响应的界面。

Syntiant的芯片是专业的AI加速器，旨在处理低至极低功耗预算的消费电子设备中的语音AI工作负载。迄今为止，这家初创公司已经在全球范围内出货了超过一千万个芯片，其中大部分已投入手机中以实现始终在线的关键字检测。最新的Syntiant芯片NDP120可以识别诸如“ OK Google”之类的热门单词，以在280 µW以下的速度激活Google助手。

将来，Busch还认为语音控制将使每个人都可以连接和访问技术。

“我们认为声音是技术的伟大民主化者，”布希说。“世界上有30亿人每天的生活费仅为2美元。我的假设是那些人没有互联网访问权限，并且可能没有通过教育系统。这里的自然界面是[语音]。这就是您将技术带入当今尚未与技术互动的世界三分之一的方式。我们已经看到发展中国家对语音优先应用产生了很大的兴趣，不仅是从费用的角度，而且从舒适的角度来看，都希望获得那些以前可能没有访问权限的社会阶层。”

市场碎片化知识

发展速度如此之快的危险在于，它可能很快变得极度碎片化。Knowles物联网高级总监Vikram Shirastava告诉EE Times，而不仅仅是硬件方面。

Vikram Shrivastava（来源：Knowles）

“例如，由于使用哪种语音识别引擎，市场变得支离破碎？” 舍拉斯塔瓦说。“市场将变得分散，这取决于您是与电视SoC集成还是内部是一个简单的MCU，例如微波炉。您会基于操作系统或基于声学环境而产生碎片–仅仅是家庭吗？外面是门铃吗？不可能有一种万能的解决方案。您必须找到每个垂直领域的共同点，然后尝试相应地解决语音集成问题。”

Knowles有一个基于DSP的语音控制解决方案，旨在引入针对不同垂直行业的版本。它的方法是将市场的各个部分划分为具有共同点的那些部分-例如，家用控件，电视条形音箱和遥控器可能属于同一类-然后开发针对该类应用程序进行了优化的解决方案。Shirastava称这种方法为“交钥匙工程以下一级”，它提供了交钥匙工程的可扩展性，但又增加了一些灵活性。

他说：“我们必须针对这些碎片的某些方面发布一些不同的版本，以使我们能够涵盖我们想要追求的垂直领域。”

Knowles的最新版本AISonic蓝牙标准解决方案是一种开发套件，用于在与蓝牙连接的设备（例如智能扬声器，智能家居设备，可穿戴设备和车载语音助手）中进行语音识别。该套件基于Knowles的IA8201双核DSP芯片，该芯片专门针对神经网络处理而设计，其功耗远低于应用处理器。例如，该芯片可以在50 mW以下的同时处理单独的AI模型，以同时进行关键字识别，源分类，波束形成，声学回声消除（AEC）和源方向估计。这是通过Tensilica DSP内核上的近400条用于音频和AI处理的自定义指令的指令集扩展实现的，该指令集又可以降低时钟频率以节省功耗。

Sugr的iOttie Aivo Connect车载智能手机支架将Knowles的IA8201用于车载语音功能。它具有内置的Alexa语音助手功能。

语音最终会成为大多数消费类电子产品的默认用户界面吗？看起来肯定是这样。先进，高效的AI语音控制算法，使开发人员能够轻松集成语音的开发环境以及不断发展的节能，经济高效的硬件解决方案生态系统相结合，使这一切成为可能。

编辑：hfy

打开APP阅读更多精彩内容