行动端及云端的语音辨识的成长推动嵌入式语音技术

星星科技指导员 2022-10-26 961

描述

　　如今，语音技术领域的许多最大参与者也是手机操作系统（OS）市场的重量级人物。微软是第一个建立语音团队的软件/移动操作系统巨头。在1990年代早期，比尔·盖茨（Bill Gates）宣扬语音用户界面（VUI）的好处，并预测它们将在计算机上的人类界面中发挥作用。谷歌在21世纪初通过建立一支由语音技术专家组成的精英团队而变得咄咄逼人，并通过其Android版本刺激了移动行业向语音界面和语音控制的方向发展。苹果一直是用户体验之王，直到最近，由于准确性方面的挑战，苹果才避免推动语音技术。然而，随着Siri（一种语音礼宾服务）的收购以及该公司的技术融入iPhone 4S，苹果可能会通过语音迎来新一代的自然语言用户体验。

　　由于各种原因，语音技术对移动行业至关重要，主要是因为它比打字更容易说话，而且因为手机的外形尺寸是围绕说话而不是打字而构建的。此外，随着移动搜索的巨大收入潜力，移动操作系统提供商看到了在其技术组合中添加语音识别的价值。

　　为什么要嵌入？

　　VUI 的大部分繁重工作都是在云中完成的。这就是大型操作系统参与者的大部分投资去向的地方。云提供了一个具有几乎无限的MIPS和内存的环境 - 这是高级语音搜索处理的两个基本要素。随着基于云的语音技术使用的增长，嵌入式领域似乎也出现了类似的趋势。

　　嵌入式语音是在无法访问云时启用语音控制和输入的唯一解决方案，这是增加用户体验的必要功能。嵌入式语音还具有消耗更少MIPS和内存的能力，从而提高了设备电池电量的效率。

　　客户端/云语音使用的最佳方案需要在客户端上激活语音，并在云上繁重地破译文本和含义。这可以实现设备始终打开并始终侦听的方案，因此可以给出并执行语音命令，而无需按客户端上的按钮。这种“无需手或眼睛”的范例在汽车中特别有用，出于安全目的和在家中的便利性。

　　例如，在最近推出的Galaxy SII Android手机中，三星的语音通话利用Sension的TrueHandsfree语音控制（一种嵌入式语音技术）来激活带有“嘿银河”字样的手机。这个短语调用了Vlingo基于云的识别服务，该服务允许用户在不触摸手机的情况下发出命令和输入文本。

　　语音识别可以在具有低至10 MIPS和数万字节内存的设备上实现。Sensory的语音芯片系列包括基于8位微控制器的RISC单芯片和利用小型嵌入式DSP的自然语言处理器。通常，在语音识别中投入的MIPS和内存越多，产品可以具有的功能就越多（更快的响应时间，更大的词汇量和更复杂的语法）。

　　无论哪个平台执行任务，语音识别的一般方法都是相似的。多年来，隐马尔可夫建模和神经网络等统计方法一直是语音识别的主要方法。从客户端迁移到云允许部署统计语言建模和更复杂的技术。

　　维伊关卡

　　要创建真正免提、免眼的用户体验，必须解决几个技术阶段。

　　第 1 阶段：语音激活

　　这实质上是取代按钮按下。识别器需要始终处于打开状态，准备好将阶段 2 调用到运行状态，并且能够在非常嘈杂的情况下激活。第一阶段的另一个关键标准是非常快的响应时间。鉴于超过几百毫秒的延迟可能会产生由用户在识别器侦听之前与阶段 2 交谈而导致的准确性问题，因此语音激活的响应时间必须与按钮的响应时间相同，这几乎是瞬时的。简单的命令和控制功能可以通过 Stage 1 识别系统或更复杂的 Stage 2 系统嵌入到客户端中，该系统可以嵌入或基于云的。

　　第 2 阶段：语音识别和转录

　　更耗电且功能更强大的 Stage 2 识别器可将所讲的内容转换为文本。如果目的是短信或语音拨号，则该过程可以在此处停止。如果用户希望回答问题或访问数据，系统将进入第 3 阶段。由于 Stage 1 识别器可以响应高噪声，因此它可以降低汽车收音机或家用 AV 中的音量，以协助阶段 2 识别。

　　第 3 阶段：意图和意义

　　这可能是这一过程中最大的挑战。文本翻译准确，但它是什么意思？例如，互联网搜索所需的查询是什么？今天的“智能”可能会尝试修改搜索，以更好地满足用户的需求。然而，计算机在弄清楚意图方面非常糟糕。苹果的Siri智能助手是在国防部资助的CALO项目下开发的，该项目涉及300多名研究人员，可能是当今智能诠释的最佳典范。

　　第 4 阶段：数据搜索和查询

　　根据查询的不同，搜索数据并找到正确的结果可能很简单，也可能很复杂。映射数据和方向可能是可靠的，因为语法很容易理解，并具有地图搜索的明确目标。随着谷歌和其他搜索提供商在数据搜索功能上投入大量资金和时间，这一阶段将继续改善。

　　第 5 阶段：语音响应

　　对查询的语音响应是显示响应的一个很好的替代方法，这可能会导致驾驶员将视线从道路上移开或给家中带来不便。当今最先进的文本到语音转换系统具有高度的可理解性，并且已经发展到比以前的自动语音系统听起来更自然。

　　为什么嵌入式识别器在第 1 阶段替换按钮需要这么长时间？

　　语音识别传统上需要按钮激活而不是语音激活。其主要原因是按钮虽然分散了注意力，但即使在嘈杂的环境中也是可靠且响应迅速的。这些类型的环境（如汽车或繁忙的家庭）对语音识别器来说可能具有挑战性。声控词必须在汽车（车窗关闭、收音机打开和道路噪音）或家中（婴儿哭泣、音乐或电视打开以及电器运行）中创建响应，而无需用户为其工作。因此，直到最近，只有当用户处于安静的环境中，麦克风靠近嘴巴时，语音技术才是可靠的。

　　快速响应时间的要求使这一挑战进一步复杂化。语音识别器通常需要数百毫秒才能确定用户在开始处理语音之前是否完成了通话。这种时间延迟可能是可以接受的，从识别系统产生答案或回复给消费者。但是，在第 1 阶段，激活的响应是在阶段 2 中调用另一个更复杂的识别器，并且使用者不会接受持续时间远远超过按下按钮所花费的时间的延迟。延迟时间越长，阶段 2 发生识别失败的可能性就越大，因为用户可能会在阶段 2 识别器准备好收听之前开始说话。

　　嵌入式语音技术的最新进展，如Sensory的真无握语音接口，无需触摸设备即可提供真正的VUI。这些技术消除了嘈杂环境中固有的问题以及较长的响应时间，使语音激活可行，准确且更方便。

　　消费电子产品中语音的未来

　　许多年前，电视观众不得不站起来走到他们的单位来改变频道。遥控器的到来结束了这一切，今天没有人会买没有遥控器的电视。尽管如此，我们仍然站起来，走到我们的大多数计算设备使用它们。随着语音识别的改进，这将不再是必需的。

　　带有语音触发器的免提设备的快速使用将发展成为智能设备，这些设备可以倾听我们所说的内容，并决定何时适合从客户端转到云端。他们还将决定何时以及如何回应，可能会演变成坐在后台倾听一切并决定何时提供帮助的助手。

　　审核编辑：郭婷

打开APP阅读更多精彩内容