基于模糊神经网络的语音识别系统

PCB88475579 2017-12-31 4512

人工智能

621人已加入

描述

　　
　　自20世纪80年代以来，语音识别技术的研究取得了许多突破性进展，特别是基于隐马尔可夫模型（HMM）的语音识别技术，目前已趋成熟，成为语音识别的主流。然而基本型的HMM模型也存在一些固有缺陷，这些缺陷除体现在状态的持续时间没有直接在模型参数中反映出来外，还表现在：

　　（1）采用状态输出独立假设，每个时刻的输出仅与所处的状态有关，而与以前的输出没有关系，然而实际语音信号却有很强的时间相关性，这就影响了HMM模型描述语音信号帧间相关性的能力。

　　（2）连续HMM模型假定状态输出概率密度函数为混合高斯分布函数，而实际的语音信号分布是非常复杂的，很难用简单的高斯分布的组合形式来表征。为了弥补这些缺陷，许多改进的方法被提出来。

　　语音识别技术是近年来高速发展的一项技术，由于其重要的理论价值与广阔的应用前景，受到人们的广泛重视。语音是一个复杂的非线性过程，基于线性系统理论的语音识别方法的局限性越来越凸显。近年来，随着人工神经网络、模糊逻辑、粒子群优化算法等非线性理论研究和应用的逐渐深入，这些理论已经开始独立或者相互交叉应用到语音识别领域中。

　　语言是人类获取信息的主要来源之一，不仅是人类与外界交流信息最方便、最有效、最自然的手段，而且也是人与机器之间进行通信的重要工具。无论是人与人之间还是人与之间的语言通信，语音信号处理，特别是语音信号数字处理，都具有特别重要的作用。

　　随着计算机技术的快速发展，用现代手段研究语音信号处理技术，使得人们能更加有效的产生、传输、存储和获得语音信息，这对于促进社会的发展具有十分重要的意义

　　数字语音信号处理，包括三方面内容，即语音信号的数字表示法，语音信号数字处理理论的各种方法和技术及数字语音处理理论和技术在各领域中的实际应用。

　　模糊神经网络在语音识别中的应用

　　神经网络是在现代科学研究成果的基础上提出来模拟人脑结构机制的一门新兴科学，它不是人脑真实的全面描述，而是这类生物神经网络的抽象、模拟和简化，其目的在于探索人脑的信息加工、存储和搜索机制，从而为人工智能和信息处理等学科的研究开辟新途径。人工神经网络就是采用物理可实现的系统来模拟人脑神经细胞的结构和功能的系统。它是由很多处理单元有机地连接起来进行并行的工作，它的处理单元虽十分简单，但其工作却是“集体”进行的，它的信息传播、存储方式与神经网络相似，它没有运算器、存储器、控制器等这些现代计算机的基本单元，而是相同的简单处理器的组合，其信息处理是存储在处理单元的连接上

　　模糊逻辑是模仿人脑的不确定性概念判断、推理思维方式，对于模型未知或不能确定的描述系统，以及非线性、大滞后的控制对象，应用模糊集合和模糊规则进行推理，表达过渡性界限或定性知识经验，模拟人脑方式，实行模糊综合判断，推理解决常规方法难于对付的规则型模糊信息问题。模糊逻辑善于表达界限不清晰的定性知识与经验，它借助于隶属度函数概念，区分模糊集合，处理模糊关系，模拟人脑实施规则型推理，解决因“排中律”的逻辑破缺产生的种种不确定问题。

　　随着模糊信息处理技术和神经网络技术研究的不断深入，将模糊技术与神经网络技术进行有机结合，从而构造出一种可“自动”处理模糊信息的神经网络或自适应模糊系统，以成为模糊技术与神经网络技术深入研究和发展的一种必然趋势。神经网络技术和模糊技术各自有自己的优点，前者以生物神经网络为模拟基础，试图在模拟推理及自动学习方面向前发展一步，使人工智能更接近人脑的自组织和并行处理功能，它在模式识别、聚类分析和专家等多方面己显示了新的前景和新的思路。后者以模糊逻辑为基础，抓住了人类思维的模糊性特点，以模仿人的模糊综合判断推理来处理常规的方法难以解决的模糊信息处理的难题。而将模糊技术和神经网络技术相结合，可以有效的发挥各自的优势并弥补不足。模糊技术的特长在于拓展神经网络处理信息的范围和能力，使其不仅能处理精确的信息也能处理模糊信息和其他不精确的信息，不仅能够实现精确的联想及映射，还可以实现不精确的联想和映射，特别是模糊联想和模糊映射仁。

　　语音识别在实现过程中通常涉及多种因素，需要同时考虑。由于计算量很大，再加上语音信号的随机性，以及我们对人类听觉机理了解甚浅，因此，目前机器自动识别语音的能力要比人类差得多，尤其是对非特定人的连续语音识别更是如此。用模糊神经网络模型作为分类器或聚类器，发展出一些新的语音识别方法。

　　由于模糊神经网络不仅具有模糊系统中的知识抽取和表达能力，适合于表达模糊或定性的知识，能够运用类似人的思维模式来进行推理，也拥有神经网络有并行计算、分布式信息存储、容错能力强以及具备自适应学习功能的一系列能力。将模糊神经网络模型用于语音识别系统，该系统具有以下特点：。

　　1、能够尽量多的利用了样本集中的有用信息以实现多因素综合评定，发挥神经网络的优势。

　　2、能够很好的引入领域专家的经验知识，利用模糊规则来指导网络的训练，使网络的训练能够更符合人的推理习惯。

　　3、对输入、输出形式进行特殊的模糊化处理后，可以用有限样本集含有的信息比较好的、近似真实分布的反映原有知识

　　传统的语音识别和采用模糊神经网络的语音识别是有区别的。在传统的语音识别方法中，模式匹配法是在对语音做过预处理之后，通过特征参数的提取及模式匹配完成识别。由于语音信号的高度多变性，输入模式要与标准模式完全匹配是几乎不可能的。因此，识别时要预先制定好计算输入的语音特征模式与各特征模式的类似或距离的规则，距离最小者就是最类似的模式。而句法模式识别法当认为输入的位置模式属于某个对象时，就要检查一下输入模式与识别对象的结构，当与对象模式结构相同或在某范围内结构一致时，则判定该未知模式就是识别对象的语音。模糊神经网络的语音识别方法与传统方法的差异在于提取了语音的特征参数后，不像传统方法那样有输入模式与标准模式的比较匹配，而是靠模糊神经网络根据专家知识或者先验知识，先对输入特征数据进行模糊化产生对不同规则的隶属度，然后根据标准来调节网络中大量的连接权对输入模式进行非线性运算，产生最大兴奋的输入点就代表了输入模式对应的分类。

　　模糊控制于20世纪六十年代萌芽于美国，七十年代诞生于欧洲，八十年代当西方人不太喜欢“模糊理论”时，它却在日本发展并广泛用于家电的自动控制，九十年代与神经网络以来，才得到全球的广泛认可并成为智能系统的一个重要分支。虽然模糊神经网络的研究没有神经网络长，但由于它结合了模糊控制和神经网络的优点，现在以广泛的用于各个领域。目前模糊神经网络在语音信号处理中的应用研究十分活跃，其中以在语音识别方面的应用已经取得较大的进步。同神经网络相似，模糊神经也主要是从听觉神经模型中得到启发，以便构成一些具有类似能力的人工系统，使它们在解决语音信号处理（特别是识别）问题时能得到较好的性能。研究模糊神经网络以探索人的听觉神经机理，改进现有语音语音识别系统的性能，是当前语音识别研究的一个重要方向。

　　模糊神经元

　　模糊神经网络是全部或部分采用模糊神经元构成的一类可处理模糊信息的神经网络系统。模糊神经元除具有普通钾经元的功能外，还具有处理模糊信息的能力。模糊神经元按功能可分为

　　1.由模糊规则“工f-then”规则描述的模糊神经元。该规则常用于表示专家知识，此类神经元由此规则描述。

　　If x， and x2 and…x， then Y

　　这里x，，x2，。。。）x。是当前输入，Y是神经元的当前输出。此模式中神经元的经验存储在模糊关系中，其中输出由当前和过去的经验组成。

　　语音识别

　　2.具有清晰输入的模糊化模糊神经元。

　　语音识别

　　此神经元有N个非模糊输入，加权操作由隶属度函数代替。每个加权操作的结果是模糊集中相应输入的隶属度值。由⑧表示的积累过程可利用MIN， MAX以及其它任意的T一范数或T一余范数。数学表示如下：

　　P（xl，x2，…，xn）=u，（x，）⑧U2 （X2）⑧，二⑧un （x，）（4. I）

　　x、是神经元的第i个输入，。（。）是第i个权值的隶属度函数，P为神经元输出，⑧表示累积算子。

　　3.具有模糊输入的模糊化模糊神经元。

　　语音识别

　　二类神经元不同，这里的加权操作不是一个隶属度函数，而是对每个模糊输入进行修正的操作。数学表示如下：

　　Y=x，⑧x2⑧…⑧xn（4.2）

　　x，=G; （x;）1=1）2，…，n （4.3）

　　这里Y是表示模糊神经元输出的模糊集，x，和瓦是加权操作之前和之后的第i个输入。G;是第i个和突触连接上的加权操作。

　　一个自适应神经元可以通过权的修正来进行学习改进其性能，在模糊神经元中还可以利用所谓“躯体”修正，即对神经元体的结构进行修改;可改变规则（If-then）;改变分配给模糊子集的隶属度函数;改变表示规则的方式等。

　　模糊神经网络模型

　　目前，模糊神经网络模型绝大多数都是多层前向网络结构，这与模糊推理的单向性质有关，由于神经元的不同以及融入模糊成分的不同，使出现了不同性质的模糊神经网络。各种模糊神经网络的主要区别在于隶属函数、模糊加权算子、模糊激励函数和输入输出的形式，以及结构与参数的设定和调整方法。模糊神经网络的原理结构图，如图4-4。

　　语音识别

　　该网络先通过模糊函数将输入数据模糊化，然后对照专家知识形成的模糊规则库对网络进行模糊推理，最后对模糊推理的结果进行清晰化处理，得到最终的网络输出。由图4-4的原理结构图可以得到基本的网络构成，如图4-50

　　第一层：输入层。输入层的节点代表输入语言变量，其作用是将输入值传送到下一层。

　　第二层：模糊化层。模糊化层是一个可将前提条件中的模糊变量的状态转化为基本状态的网络层，这种转化的依据是定义在前提模糊变量定义域上的模糊子空间。这些模糊子空间与模糊推理前提条件中的基本模糊状态相对应。

　　第三层：模糊推理层。模糊推理层联系着模糊理论的前提与结论，准确的说是模糊推理的前提变量的基本模糊状态和结论变量的基本状态。其网络参数即模糊推理过程中

　　语音识别

　　前提变量的基本模糊状态和结论变量的基本模糊状态之间的模糊关系，它们由具体问题所确定。

　　第四层：去模糊化层（即清晰化层）。去模糊化层是将推理结论变量的分布型基本模糊状态转化成确定状态的网络层。

打开APP阅读更多精彩内容