一种基于嵌入式系统的语音口令识别系统的设计

嵌入式技术

1330人已加入

描述

随着计算机技术和信息技术的迅速发展,语音口令识别已经成为了人机交互的一个重要方式之一。语音口令识别系统将根据人发出的声音、音节或短语给出响应,如通过语音口令控制一些执行机构、控制家用电器的运行或做出回答等。在数字信号处理芯片上已经实现了语音口令识别系统或语音口令识别系统的部分功能,然而随着嵌入式微处理器处理能力的大幅度提高,计算量大的语音口令识别算法已经能够通过嵌入式微处理器来完成,将语音口令识别系统与嵌入式系统相结合,发挥语音识别系统的潜力,使语音识别系统能够广泛应用于便携式设备中。

采用隐马尔克夫模型(Hidden Markov MODEL,HMM) 描述语音信号的非平稳性和局部平稳性,HMM中的状态与语音信号的某个平稳段相对应,平稳段之间以转移概率相联系。由于HMM建模对语音信号长度和模型的混合度的要求都比较低,因此在现有的非特定人语音口令识别系统中,多采用状态输出具有连续概率分布的连续隐马尔可夫模型(ConTInuous Density Hidden Markov MODEL,CDHMM)。

论文给出一种基于嵌入式系统的语音口令识别系统的设计方案,硬件系统的核心芯片是嵌入式微处理器,语音口令识别算法采用CDHMM。语音口令首先经过预处理,提取MFCC(Mel-Frequency Ceptral Coefficients)特征参数,然后建立此口令的CDHMM模型,把所有语音口令的模型放在模型库中,在识别阶段,通过概率输出*分,取*分最大的一个作为识别出的口令。将语音识别系统与嵌入式系统相结合,可以使语音口令识别系统广泛应用于便携式设备中。

1 硬件电路的设计和工作原理

基于嵌入式系统的语音口令识别系统需要有接收语音信号的输入芯片配合麦克风实现将模拟语音信号转换成数字信号的功能,然后由嵌入式微处理器对输入的语音口令信号进行处理。完成语音口令信号输入功能的芯片采用的是PHILIPS公司的低功耗芯片UDAl341TS,供电电源电压为3V,该音频处理芯片由模数/数模转换(ADC)、控制逻辑电路、可编程增益放大器(PGA)和数字自动增益控制器(DAGC)以及数字信号处理器等部分组成,能进行数字语音处理。

芯片UDAl341TS采用标准的内部集成电路声音总线IIS(Inter IC Sound Bus),该总线是由PHILIPS等公司共同提出的数字音频总线协议,专门用于音频设备之间的数据传输,目前很多音频芯片和微处理器都提供了对IIS总线的支持。

IIS总线有三根信号线,分别是位时钟信号BCK(Bit Clock)、字选择控制信号WS(Word Select)和串行数据信号Data,由主设备提供串行时钟信号和字选择控制信号,IIS总线的时序如图1所示。

嵌入式系统

2 基于CDHMM的口令识别的软件设计

2.1 口令识别的软件系统框图

语音口令识别的软件系统分别由特征参数提取、语音模型库和概率输出*分三大模块组成,如图3所示:1)语音口令特征参数的提取,输入不同的语音口令,首先要进行特征参数提取,采用Mel频率参数作为CDHMM的建模参数,Mel频率参数是根据人耳的听觉特性将语音信号的频谱转化为基于Mel频率的非线性频谱,然后转换到倒谱域上。2)在训练阶段,对不同的语音口令建立CDHMM模型。3)在口令识别阶段,通过概率输出*分对待测语音口令做出识别。

N(o,ujk,∑jk)为多维高斯概率密度函数,o是观察矢量序列,即从语音中提取的特征矢量参数(o1,o2,…,ot),t为观察矢量序列的时间长度。ujk,∑jk分别为高斯分布的均值和方差参数,Cjk为高斯分布的权值,满足约束条件

是改进后的模型,再将作为初始值,重新估计。

基于“分段K-平均法”的CDHMM参数估计具体过程为:

(1)设置模型参数初始值λ=(π,A,B)。

(2)根据此λ用Viterbi算法将输入的训练语音数据划分为最可能的状态序列,利用状态序列估计参数A。

对于概率密度函数由若干正态分布函数线性相加的CDHMM系统,每个状态θj(1≤j≤N)的概率密度函数bj(X)由K个正态分布函数线性相加而成,这样可以把每一状态语音帧分成K类,然后计算同一类中诸语音帧矢量X的均值矢量,方差矩阵∑jk和混合密度函数中各概率密度函数的权重系数 Cjk。

(4)由(2)和(3)估计的CDHMM参数作为初值,利用重估公式对CDHMM参数进行重估,得到参数。

(5)利用(4)所得的计算,并与p(O/λ)相比较。如果差值小于预定的阈值或迭代次数超过预定的次数,即说明模型参数已经收敛,无需进行重估计算,可将作为模型参数输出。反之,若差值超出阈值或迭代未到预定的次数,则将计算结果作为新的初值,重复进行下一次迭代。

3 结束语

论文建立了一种基于嵌入式系统的语音口令识别系统,并且对上升、下降等14条口令进行测试,每条语音先切除静音,预加重,然后通过 Hamming窗分帧处理,帧长和帧移分别为20ms和10ms,然后对每一帧语音信号提取16MFCC+16AMFCC共32维参数作为特征矢量。该语音口令识别系统达到了实时的要求,可以使语音口令识别系统广泛应用于便携式设备中。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分