语音控制使设备能够说话和倾听

tr12345 2023-01-10 1870

电子说

1.4w人已加入

描述

语音控制技术让家中的每一件电器都能说话和倾听

这是一个场景：你下班或放学回家，你告诉电视你想看什么节目，它会自动打开并切换到你喜欢的频道。或者，也许您告诉炉子准备低火和慢火烹饪，以便晚餐在合适的时间以合适的温度烹饪。今天，家用电器能够执行这些功能。通过语音控制，在工作或学习了一天的劳累之后，你可以躺在沙发上放松一下，并向这些乖乖听从你指挥的电器发出指令。

复杂的架构和广泛的连接是物联网的标志。越来越多的公司选择云托管物联网系统，因为云架构安全、快速、方便。通过使用多层加密和身份验证，系统变得更加安全。一键完成自然语言处理等基于AI的模型训练和部署。物联网云通常包括嵌入家用电器中的传感器，通过 Wi-Fi 连接到互联网。用于接收数据并将其传输到云数据库中，以便在云环境中进行分析和处理。本文以云架构为框架，讲解语音控制技术如何让家电服从口头指令并做出响应。

家电中的语音控制技术

随着人工智能和物联网的不断发展，人机交互(HMI)已经出现了更高端的体验。语音控制技术是当今应用最为广泛和热门的研究课题之一。语音控制在家用电器中的应用，消除了对熟悉的遥控器的需要，并使电器仅使用口头命令即可运行，这对大多数人来说是新的。人工智能、机器学习、语音识别、物联网和云计算使语音控制的家用电器成为可能。

Azure 云语音控制和语音识别技术

语音控制系统包括：

语音识别

自然语言理解

对话管理

自然语言生成

语音合成

语音识别是指信息从语音到文本的转换。Azure平台的TTS(text-to-speech)是使用微软现有数据训练的通用语言模型，部署在云端。该模型可用于创建和训练自定义语言模型。它可以选择一个特定的词典，并根据需要将其添加到训练数据中。

自然语言分析/自然语言处理是机器学习的一部分，设计模型并进行训练。

对话管理的任务包括三个要点：

用户意图预测

根据对话内容进行分析，机器学习模型预测并确认下一步要做什么。

提供与后端/任务模型

交互的接口作为应用接口，实现与服务器或模型的请求交互，获取反馈结果，生成文本结果。

为语义分析的结果提供期望值。

它根据用户的问题通过语义解析来响应以满足用户的期望。

响应文本是根据模型对用户命令的分析生成的。语音合成技术的主要作用是将文本转化为人性化的语音。基本的 Azure 云语音合成使用语音 SDK 或 REST 应用程序编程接口 (API) 协议(请参阅下面的详细信息)来实现具有神经或自定义语音的文本到语音。

在家用电器中，对话模型的情感要求较低，因为大多数用户命令只是功能性请求，例如打开设备和请求温度或湿度。

云语音控制技术基本解决方案步骤

云语音控制技术的基本解决方案包括：

对话模式：对话模式是人机语言交互的中心枢纽;所有其他模式都源于此。只要用户发出命令，系统就会切换到对话模式。Azure 使用 UWP 应用程序平台开发了一个接口，用于监控是否成功接收到人声触发(例如对平台说：“嗨，云!”)。

听写模式：用户说出较长的短语或句子，等待语音识别结果。在说出初始触发器“'嗨，云!”之后，用户可以向机器发出实际命令。语音内容传输到语义分析系统 (Azure LUIS)，实时语音转文本服务初始化通用语言模型。通过REST API/语音软件开发包(SDK)完成操作。

交互模式：当用户发出简短请求并希望应用程序做出响应时，使用交互模式，由于应用程序中嵌入了语音识别和文本到语音转换功能，该过程才有效。在本文的示例中，部署在 Azure 云中的语音控制系统的交互模式使用用户交互通用 Windows 平台 (UWB) 应用程序发挥作用。UWP上提供了一个简单的接口供用户操作，或者供开发者测试使用。

通用 Windows 平台 (UWP)

借助通用 Windows 平台，相同的 API 可以普遍应用于计算机、智能手机或其他 Windows 10 设备。换句话说，相同的代码可以在不同的终端上运行，而无需为不同的平台编写不同版本的代码。

认知服务语音识别 SDK 和 REST API

语音 SDK 软件允许制造商通过对汽车免提应用(例如驾驶舱设备中的语音识别)使用语音频带音频处理来提高免提应用中的语音质量。

官方文档指出：“作为语音 SDK 的替代方法，语音服务允许使用 REST API 将语音转换为文本。每个可访问的端点都连接到特定区域。应用程序需要使用的端点的订阅密钥. REST API 非常有限，因为它们只能在语音 SDK 不可用的情况下使用。”

以语音识别为例：在向服务器发送 HTTP 请求之前，必须获取 REST API 的密钥。认证通过后，服务器将转换后的音频返回本地。此图是在应用程序中创建和使用 REST 客户端然后调用它的示例(图 1)。调用 REST 客户端时，输入会转换为 HTTP 请求并发送到 REST API。来自通信端点的响应是 HTTP 响应。REST 客户端将其转换为应用程序可以识别的类型并将其返回给应用程序。

Azure

图 1：在应用程序中创建和使用 REST 客户端。(来源：gunnarpeipman.com)

我们选择不公开披露我们应用程序的 REST 客户端的详细信息，因此可以添加一个用于与外部服务器通信的适配器。适配器从应用程序接收已知类型的参数，适配器将相同的数据返回给外部服务器。

语言理解智能服务(LUIS)

Azure 的 LUIS 是一种基于云的对话 AI 服务，可以让机器理解人类语言。操作模式可以概括如下：客户端通过应用程序直接向 LUIS 发送语音请求。LUIS 中的自然语言处理功能将命令转换为 JSON 格式。分析后，答案也以JSON格式返回。LUIS平台为用户提供训练模型服务。该模型具有“持续学习”功能，可以响应客户的要求，通过持续自动修正来提高准确性。

现在，让我们以住宅湿度监控系统为例了解 LUIS 的工作原理。如果您希望用户发出“检查湿度”命令怎么办?LUIS 包含自然语言处理的基本组件：

目的(动词)：在这里，“检查”是动词。LUIS 模型最多接受 80 个客观词。

完整的语言内容：这是用户给出的完整命令。LUIS 模型最多接受 500 个单词的语音请求。

实体(名词)：在这里，“湿度”是名词。LUIS 模型最多可以接受 30 个实体名词。

用户可以根据自己的需要自定义 LUIS 特征，这意味着当你的模型不能轻易识别一个或几个单词时，它可以自动添加新数据进行再训练。

在 Windows 10 IoT Core 上运行 Raspberry Pi 3

Raspberry Pi 是一块可以连接不同类型传感器的开发板。Raspberry Pi 可以与 Web 服务器一起使用。这样的服务器接收不同的解释命令并发送电信号来控制安装在智能家居中的家电。

语音控制技术如何应用于家电

语音控制让家居环境更加智能，带来家电自动化(图2)。我们可以这样定义它：通过使用提供与健康、多媒体、娱乐和能源领域相关的不同服务的技术来改善房主的生活质量。

图 2：语音控制技术识别音频命令以操作连接的家用电器。(来源：Andrey Suslov/Shutterstock.com)

示例应用程序：具有云服务的智能湿度监测器

下面我们以云架构为例，看看家电语音控制技术如何与智能声控湿度监测器协同工作。

核心技术

在 Raspberry Pi 3 上运行通用 Windows 平台 (UWP) 时，语音识别 API 和传感器会与用户交互。在 LUIS 中进行语义分析，Raspberry Pi 3 输入用户的问题。答案最终来自认知服务的语音识别API。

建筑学

云计算已成为数据架构的首选，以确保数据传输安全、数据处理快速、模型预测准确。云部署还可以显着减少设备操作，提升设备性能，同时提升用户体验，实现双赢。这里选择的云架构是最近在人工智能和物联网领域引起重大发展和创新的微软 Azure 云平台。

职能

数据存储：通过传感器收集的数据存储在云端。

语音转文本和文本转语音 API 用于识别用户的问题并使用语音进行回答。

LUIS 语音识别和语义分析可以使用先前训练的模型预测对用户命令的正确响应。

家电可以通过Raspberry Pi 3的语音输入和认知服务的语音识别来回答用户的问题。

解决方案

有关创建此类解决方案的示例，请参阅以下 GitHub 链接。

数据发送到云端

使用当今的数据架构已经可以完成从传感器到云数据库的数据传输。客户可以直接使用不同类型的数据库来满足不同的需求。

进行语音对话：UWP 应用程序

例子：用户想知道他们家里的湿度是多少，所以他们说，“嘿，云!房间里现在的湿度是多少?” 问题的文本是使用在设备上的 Raspberry Pi 3 中运行的 UWP 提供的。该应用程序将与所有传感器和执行器通信，然后触发系统将问题发送到 LUIS 进行语义分析。

通过连接 LUIS 分析问题

LUIS 用于理解从 Raspberry Pi 3 收到的命令。通过模型训练，应用程序可以识别命令的意图是检测室内湿度。之后，将 LUIS API 添加到 UWP 应用程序中。当用户说出触发命令“嘿，云!”时，所有内容都会通过 API 发送到 LUIS 并进行分析。在 UWP 中调用 LUIS，它接收输入并分析意图。根据预测意图的置信度，向用户提供正确答案。然后向物联网中心发送命令以从传感器获取温度。

开发网络应用程序

可以开发用于设备管理的网络应用程序。该应用程序可以显示物联网中心接收到的所有传感器数据，使设备的管理更容易，并实现重启和固件更新的功能。

人机交互

UWP 应用程序和 Web 应用程序相互交互，给客户端一个响应，Web 应用程序负责将命令发送到指定的传感器，检测特定传感器当前的室内湿度，并回答用户的问题。最后，通过文本转语音 API 向用户提供当前室内湿度。

结论

物联网时代，拥有语音控制和响应能力的家电，让人类实现高品质便捷生活的梦想成为可能。家电的语音控制功能是结合人工智能、机器学习、自然语言处理、物联网、云计算、数据传输和传感器等技术设计的。

语音控制技术在家电中的应用是一个非常具有前瞻性的应用。未来的家肯定会是一个充满可以与用户交谈的智能设备的地方。希望这项技术能够吸引更多的科学家投入到这一研究领域，不断创新发展。

审核编辑：汤梓红

打开APP阅读更多精彩内容