语音识别的基本概述、原理及应用发展

电子设计 2021-03-19 10926

描述

语音识别作为信息技术中一种人机接口的关键技术，具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程，具体阐述了语音识别概念、基本原理、声学建模方法等基本知识，并对语音识别技术在各领域的应用作了简要介绍。

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式，语音是语言的声学表现，与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展，语音识别技术也取得突破性的成就，人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛，不仅涉及到日常生活的方方面面，在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术，使人们对信息的处理和获取更加便捷，从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期，语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代，语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题，并通过语音信号的线性预测编码，有效地解决了语音信号的特征提取。

2O世纪70年代，语音识别技术取得突破性进展。基于动态规划的动态时间规整（Dynamic Time Warping，DTW）技术基本成熟，特别提出了矢量量化（Vector Quantization，VQ）和隐马尔可夫模型（Hidden Markov Model，HMM）理论。

20世纪80年代，语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别，识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面，由于HMM能够很好的描述语音时变性和平稳性，开始被广泛应用于大词汇量连续语音识别（Large Vocabulary Continous Speech Recognition，LVCSR）的声学建模；在语言模型方面，以N元文法为代表的统计语言模型开始广泛应用于语音识别系统。在这一阶段，基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统，语音识别技术取得新突破。

20世纪90年代以后，伴随着语音识别系统走向实用化，语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展。同时，人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题。此外，语音识别技术开始与其他领域相关技术进行结合，以提高识别的准确率，便于实现语音识别技术的产品化。

2 语音识别基础

2．1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域。

根据在不同限制条件下的研究任务，产生了不同的研究领域。这些领域包括：根据对说话人说话方式的要求，可分为孤立字（词）、连接词和连续语音识别系统；根据对说话人的依赖程度，可分为特定人和非特定人语音识别系统；根据词汇量的大小，可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2．2 语音识别基本原理

从语音识别模型的角度讲，主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息，把输入的语音特征向量序列X=x1，x2，……，xT转化成词序列W=w1，w2，……，wN并输出。基于最大后验概率的语音识别模型如下式所示：

语音识别

上式表明，要寻找的最可能的词序列

，应该使P（X|W）与P（W）的乘积达到最大。其中，P（X|W）是特征矢量序列X在给定W条件下的条件概率，由声学模型决定。P（W）是W独立于语音特征矢量的先验概率，由语言模型决定。由于将概率取对数不影响W的选取，第四个等式成立。logP（X|W）与logP（W）分别表示声学得分与语言得分，且分别通过声学模型与语言模型计算得到。A是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲，一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统，对于不同的语音识别系统，人们所采用的具体识别方法及技术不同，但其基本原理都是相同的，即将采集到的语音信号送到特征提取模块处理，将所得到的语音特征参数送入模型库模块，由声音模式匹配模块根据模型库对该段语音进行识别，最后得出识别结果。

语音识别系统基本原理框图如图1所示，其中：预处理模块滤除原始语音信号中的次要信息及背景噪音等，包括抗混叠滤波、预加重、模／数转换、自动增益控制等处理过程，将语音信号数字化；特征提取模块对语音的声学参数进行分析后提取出语音特征参数，形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键，对识别效果极为重要。

语音识别

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号，目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后，通过对语音信号进行加窗，实现短时语音片段上的特征提取。这些短时片段被称为帧，以帧为单位的特征序列构成语音识别系统的输人。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号，已经成为目前主流的语音特征。为补偿帧间独立性假设，人们在使用梅尔倒谱系数及感知线性预测系数时，通常加上它们的一阶、二阶差分，以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中，普遍采用上下文相关的模型作为基本建模单元，以刻画连续语音的协同发音现象。在考虑了语境的影响后，声学模型的数量急剧增加，LVCSR系统通常采用状态聚类的方法压缩声学参数的数量，以简化模型的训练。在训练过程中，系统对若干次训练语音进行预处理，并通过特征提取得到特征矢量序列，然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中，按照一定的优化准则，寻找最优词序列的过程。搜索的本质是问题求解，广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识（声学知识、语音学知识、词典知识、语言模型知识等），在状态（从高层至底层依次为词、声学模型、HMM状态）空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段，将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较，将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率，在后处理模块中对上述得到的候选识别结果继续处理，包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束，得到更可靠的识别结果。

2．3 声学建模方法

常用的声学建模方法包含以下三种：基于模式匹配的动态时间规整法（DTW）；隐马尔可夫模型法（HMM）；基于人工神经网络识别法（ANN）等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想，解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题在实际应用中，DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度，再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型，是在马尔可夫链的基础上发展起来的，它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程，可视作一个双重随机过程：一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程。

ANN以数学模型模拟神经元活动，将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域，并结合神经网络和隐含马尔可夫模型的识别算法，克服了ANN在描述语音信号时间动态特性方面的缺点，进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年，微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中，它使得人们可以甩掉键盘，通过识别语音中的要求、请求、命令或询问来作出正确的响应，这样既可以克服人工键盘输入速度慢，极易出差错的缺点，又有利于缩短系统的反应时间，使人机交流变得简便易行，比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中，人们通过语音命令，可以方便地从远端的数据库系统中查询与提取有关信息，享受自然、友好的数据库检索服务，例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译，即通过将口语识别技术、机器翻译技术、语音合成技术等相结合，可将一种语言的语音输入翻译为另一种语言的语音输出，实现跨语言交流。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发，并在军事领域首先应用、首获成效的，军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前，语音识别技术已在军事指挥和控制自动化方面得以应用。比如，将语音识别技术应用于航空飞行控制，可快速提高作战效率和减轻飞行员的工作负担，飞行员利用语音输人来代替传统的手动操作和控制各种开关和设备，以及重新改编或排列显示器上的显示信息等，可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来，以便更快获得信息来发挥战术优势。

4 结语

语音识别的研究工作对于信息化社会的发展，人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展，语音识别技术将取得更多重大突破，语音识别系统的研究将会更加深入，有着更加广阔的发展空间。

责任编辑：gt

打开APP阅读更多精彩内容