语音交互设备中的ASR和TTS技术

安富利 2022-06-16 5174

描述

本期导读

-Hi Siri，今天天气怎么样？

-今天天气晴，18℃至27℃，空气质量指数36，优。

手机、手表、音箱等智能设备极大地便利了我们的生活，随着语音交互设备的发展，智能交互依然面临很多挑战。

我们每天要说成百上千句话，长短不一。即便是一些转瞬即逝的口头语，也可以成为传达自我意识的载体，向他人准确传达信息。可语言似乎是人类群体特有的专利，在过往的时间中，想借助语言与其他物种、物体建立清晰明确沟通关系的可能性无限趋近于零，直到智能语音技术的出现。

作为最早落地的人工智能技术之一，AI语音技术已经得到了长足的发展。如今，智能语音技术已经被广泛集成的就是家居产品之中。在即将到来的万物互联时代，以语音交互为主的智能设备无疑将极具竞争力与吸引力。仔细一想，一众充满科技感与未来感的智能设备，将天然具备人类最熟悉的“原始交互方式”，也颇有些化繁为简、返璞归真的意味。

语音交互设备的“助听器”——ASR

在复杂环境中，我们总是可以忽略或弱化无关噪声，集中注意力进行沟通，但语音交互设备在如此环境中只会无所适从，不免陷入“交互尚未开始，便已结束”的囧境。故此，设备拥有对各类“声学场景”的声源信号进行处理、优化功能的必要性不言而喻。而借助降噪NS、语音增强SE等技术，可以对声学场景中的非语音噪音信号进行抑制，从含有噪音的语音信号中提取纯净语音，提升语音识别效果，让语音交互设备可以分辨、倾听出目标声音，进而为后续的语音交互扫清障碍。

在语音识别技术（ASR）的加持下，语音交互设备能对声音信号进行特征提取，提取而出的“特征”会作为参数，为模型计算做准备。简单理解就是将语音信息数字化，再通过相应的模型对数字化信息进行计算。后续通过声学模型计算得出相应的音素（即把声音转成音素），其目的是根据音素来找到对应的汉字或者单词，最终转换成设备可以理解的文本。

语音交互设备的“声卡”——TTS

基于语音合成技术（TTS），语音交互设备可对文本逐句分析，进行词汇、语法的和语义的分析，以确定句子的低层结构和每个字的所对应的音素组成，包括文本的断句、字词切分、多音字处理以及数字处理等。

在内置芯片和神经网络技术的支持下，语音交互设备可把处理好的文本所对应的单字或短语从语音合成库中提取，使语言学描述转化成言语波形，即把文字智能地转化为自然语音流。至此，一次完整的语音交互便成功完成。当然，在特有的智能语音控制器作用下，文本输出的语音音律将会更加流畅，使得听者在听取信息时感觉自然、毫无机器语音输出的冷漠与生涩感。

写在最后

诚然，已普遍应用于智能家居设备中的语音交互技术仍面临诸多挑战，在设备唤醒率、识别率、误报率、环境降噪等方面仍有改进的空间。但毫无疑问，在未来语音作为人类最自然、最便捷的沟通方式，将会成为所有设备和产品至关重要的入口和人与机器之间的通信纽带，而强逻辑、无视觉或者弱视觉的智能语音技术也会找到更多用武之地。

原文标题：智能交互的尽头是聊天？

文章出处：【微信公众号：安富利】欢迎添加关注！文章转载请注明出处。

　　审核编辑：汤梓红

打开APP阅读更多精彩内容