基于云的语音识别增长推动嵌入式语音技术

星星科技指导员 2022-08-11 633

描述

　　当今语音技术领域的许多最大玩家也是手机操作系统（OS）市场的重量级人物。微软是第一个组建语音团队的软件/移动操作系统巨头。在 1990 年代初期，比尔·盖茨宣扬了语音用户界面（VUI）的好处，并预测它们将在计算机上的人机交互中发挥作用。谷歌在 21 世纪初建立了一支由语音技术专家组成的精英团队，并通过其 Android 版本刺激了移动行业向语音界面和语音控制方向发展。苹果一直是用户体验的王者，直到最近，由于准确性方面的挑战，苹果一直避免推动语音技术。然而，随着收购 Siri（语音礼宾服务）并将该公司的技术整合到 iPhone 4S 中，

　　由于多种原因，语音技术对移动行业变得至关重要，主要是因为说话比打字更容易，而且手机的外形设计是围绕说话而不是打字而构建的。此外，由于移动搜索的巨大收入潜力，移动操作系统提供商看到了将语音识别添加到他们的技术组合中的价值。

　　为什么是嵌入式？

　　VUI 的大部分繁重工作都是在云中执行的。这就是大型操作系统厂商的大部分投资都花在了那里。云提供了一个具有几乎无限 MIPS 和内存的环境——这是高级语音搜索处理的两个基本要素。随着基于云的语音技术使用的增长，嵌入式领域似乎也出现了类似的趋势。

　　嵌入式语音是唯一能够在无法访问云时启用语音控制和输入的解决方案——这是增加用户体验的必要功能。嵌入式语音还能够消耗更少的 MIPS 和内存，从而提高设备电池电量的效率。

　　客户端/云语音使用的最佳方案需要在客户端上进行语音激活，并在云上解密文本和含义的繁重工作。这可以实现设备始终开启并始终收听的场景，因此无需按下客户端上的按钮即可发出和执行语音命令。这种“不需要手或眼睛”的范例在汽车中为了安全目的而在家里为了方便起见特别有用。

　　例如，在最近推出的 Galaxy SII Android 手机中，三星的 Voice Talk 使用 Sensory 的 TrulyHandsfree 语音控制，一种嵌入式语音技术，通过“Hey Galaxy”来激活手机。这句话调用了基于云的 Vlingo 识别服务，该服务允许用户在不接触手机的情况下发出命令和输入文本。

　　语音识别可以在低至 10 MIPS 和数万字节内存的设备上实现。Sensory 的语音芯片系列包括基于 8 位微控制器的 RISC 单芯片和利用小型嵌入式 DSP 的自然语言处理器。一般来说，在语音识别中投入的 MIPS 和内存越多，产品的功能（响应时间越快、词汇量越大、语法越复杂）就越多。

　　无论什么平台实现任务，语音识别的一般方法都是相似的。多年来，隐马尔可夫建模和神经网络等统计方法一直是语音识别的主要方法。从客户端迁移到云端允许部署统计语言建模和更复杂的技术。

　　VUI 阶段

　　要创建真正免提、免眼的用户体验，必须解决几个技术阶段。

　　第 1 阶段：语音激活

　　这实质上是在替换按钮按下。识别器需要始终处于开启状态，准备好调用第 2 阶段投入运行，并且能够在非常嘈杂的情况下激活。第一阶段的另一个关键标准是非常快的响应时间。鉴于超过几百毫秒的延迟可能会导致用户在识别器收听之前对阶段 2 说话而导致准确性问题，因此语音激活的响应时间必须与按钮的响应时间相同，这几乎是瞬时的。简单的命令和控制功能可以通过 Stage 1 识别系统或更复杂的 Stage 2 系统嵌入客户端，该系统可以是嵌入式的或基于云的。

　　第 2 阶段：语音识别和转录

　　更耗电且功能更强大的 Stage 2 识别器将所说的内容翻译成文本。如果目的是短信或语音拨号，则该过程可以在这里停止。如果用户想要回答问题或访问数据，系统将进入第 3 阶段。由于第 1 阶段识别器可以在高噪声下做出响应，它可以降低汽车收音机或家庭 AV 的音量以协助第 2 阶段识别。

　　第三阶段：意图和意义

　　这可能是这个过程中最大的挑战。文本翻译准确，但它是什么意思？例如，互联网搜索所需的查询是什么？今天的“智能”可能会尝试修改搜索以更好地适应它认为用户想要的内容。然而，计算机在识别意图方面非常糟糕。Apple 的 Siri 智能助手是在国防部资助的 CALO 项目下开发的，涉及 300 多名研究人员，它可能是当今智能解释的最佳示例。

　　第四阶段：数据搜索和查询

　　根据查询的不同，搜索数据并找到正确的结果可能很简单，也可能很复杂。地图数据和方向可能是可靠的，因为语法很好理解，地图搜索的目标很明确。随着谷歌和其他搜索提供商在数据搜索功能上投入大量资金和时间，这一阶段将继续改善。

　　第 5 阶段：语音响应

　　对查询的语音响应是显示响应的一个很好的替代方案，这可能会导致驾驶员将视线从道路上移开或在家中造成不便。当今最先进的文本到语音系统具有高度可理解性，并且比以前的自动语音系统听起来更自然。

　　为什么嵌入式识别器在第 1 阶段替换按钮需要这么长时间？

　　语音识别传统上需要按钮激活而不是语音激活。造成这种情况的主要原因是按钮虽然让人分心，但即使在嘈杂的环境中也是可靠且反应灵敏的。这些类型的环境，例如汽车或繁忙的家，对于语音识别器来说可能具有挑战性。一个声控词必须在汽车（车窗关闭、收音机打开和道路噪音）或家中（婴儿哭泣、音乐或电视打开、电器运行）中产生响应，而无需用户为它工作。因此，直到最近，语音技术只有在用户处于安静环境中且麦克风靠近嘴巴时才可靠。

　　对快速响应时间的要求使这一挑战进一步复杂化。语音识别器通常需要数百毫秒才能确定用户是否在开始处理语音之前完成了谈话。识别系统可以接受这个时间延迟以产生答案或回复给消费者。然而，在第 1 阶段，激活的响应在第 2 阶段调用另一个更复杂的识别器，消费者不会接受持续时间比按下按钮时间长得多的延迟。延迟越长，在第 2 阶段发生识别失败的可能性就越大，因为用户可能在第 2 阶段识别器准备好收听之前开始说话。

　　嵌入式语音技术的最新进展，例如 Sensory 的 TrulyHandsfree 语音界面，无需触摸设备即可提供真正的 VUI。这些技术消除了嘈杂环境中固有的问题以及较长的响应时间，使语音激活变得可行、准确和方便。

　　消费电子产品中语音的未来

　　许多年前，电视观众不得不起身走到他们的单位更换频道。遥控器的到来让这一切都结束了，今天没有人会买没有遥控器的电视。尽管如此，我们仍然起身走到我们的大多数计算设备前使用它们。随着语音识别的改进，这将不再是必要的。

　　带有语音触发功能的免提设备的迅速兴起将发展成为智能设备，这些设备可以聆听我们所说的话并决定何时适合从客户端转到云端。他们还将决定何时以及如何做出回应，有可能演变成坐在后台倾听一切并决定何时提供帮助的助手。

　　审核编辑：郭婷

打开APP阅读更多精彩内容