语音识别系统原理
更多
好的,我们来详细解释一下语音识别系统的工作原理。简单来说,它的目标就是将人类发出的连续语音音频信号,转化为对应的文字序列。这个过程非常复杂,融合了信号处理、模式识别、机器学习和语言学等多学科知识。
现代主流的语音识别系统核心是“端到端”模型(如RNN-T/Transfomer等),但理解其原理通常可以分解为以下几个关键步骤:
-
信号预处理与数字化:
- 声音采集:麦克风将声波(连续的模拟信号)捕获下来。
- 数字化:模数转换器将模拟信号转换为计算机能处理的数字信号(离散样本点)。这涉及到采样率和量化精度(如16kHz采样率,16位量化)。
- 预处理:
- 降噪/增强:使用滤波器或神经网络等方法,尽量去除背景噪音,增强语音信号。
- 预加重:对高频部分进行提升,使得频谱平坦化,利于后续分析。
- 分帧:语音信号在短时间内可以认为是相对平稳的。因此,将连续的语音信号分割成小的时间片段(称为帧),通常每帧长度为20-40毫秒,帧与帧之间有重叠(如10毫秒步长)。
- 加窗:对每一帧数据乘以一个窗函数(如汉明窗),减少帧边缘的信号突变,使频谱分析更准确。
-
特征提取:
- 目标是从每一帧数字化后的音频信号中,提取出能表征语音关键特性且对说话人、音量等变化相对鲁棒的低维特征向量。最常用、最经典的特征是:
- 梅尔频率倒谱系数:它模拟了人耳的听觉感知特性(人耳对低频变化更敏感,对高频变化较不敏感)。其计算步骤为:
- 对每帧信号做傅里叶变换,得到频谱(时域->频域)。
- 将频谱的能量通过一组梅尔滤波器组(三角形滤波器,低频区域密集,高频稀疏)。得到每个滤波器通道的能量。
- 取上述滤波器能量的对数(模仿人耳对响度的非线性感知)。
- 对对数能量做离散余弦变换,得到倒谱。取前N个系数(通常是12-40个)作为MFCC特征。
- 梅尔频率倒谱系数:它模拟了人耳的听觉感知特性(人耳对低频变化更敏感,对高频变化较不敏感)。其计算步骤为:
- 其他常用特征还有:滤波器组能量、频谱质心、过零率等。
- 通常还会在MFCC的基础上加上它们的一阶、二阶差分(Delta, Delta-Delta),构成动态特征,以描述特征随时间的变化(即说话速度)。
- 结果:语音信号被表示成一个时序特征向量序列
X = [x1, x2, ..., xT],其中每个xt是一个特征向量(如39维:13个MFCC + 13个Delta + 13个Delta-Delta)。
- 目标是从每一帧数字化后的音频信号中,提取出能表征语音关键特性且对说话人、音量等变化相对鲁棒的低维特征向量。最常用、最经典的特征是:
-
声学建模:
- 这是核心步骤之一,目标是建立起音频特征序列与语言学单位(如音素、字节或字符)之间的映射关系。
- 过去(混合模型):
- 首先将单词拆解成音素(Phoneme),每种语言都有固定的音素集合(如中文约140个)。
- 使用隐马尔可夫模型描述每个音素的发音过程:HMM将每个音素的发音建模成由多个状态(State,通常3个:起始、稳定、结束)组成,状态间有转移概率。
- 使用高斯混合模型描述处于某个状态时,生成某个音频特征向量的概率。
- 缺点:需要对齐(Alignment)复杂,建模单元需要预先定义(音素词典),且HMM-GMM模型相对简单。
- 现在主流(深度神经网络):
- 深度神经网络(如循环神经网络、卷积神经网络、Transformer)取代了GMM,直接从输入的帧级特征序列中学习更复杂的、上下文相关的特征表示,并预测每个更细粒度的输出单元的概率分布。
- 常用的输出单元:
- 音素状态(HMM状态):模型输出是每个帧属于哪个音素的哪个状态的概率
P(state | xt)。 - 上下文相关音素(绑定的三音子):考虑了前后音素的影响。
- 字节:直接预测字节(Byte)序列。
- 字符:直接预测字母或字符(在中文里就是汉字)。
- 音素状态(HMM状态):模型输出是每个帧属于哪个音素的哪个状态的概率
- 端到端模型:倾向于直接预测字符或单词。为了处理输入(帧)与输出(字符)序列长度不一致以及对应关系未知的问题,主要有两种方式:
- 连接主义时间分类:引入一个特殊的“空白”标签,模型在预测字符序列的同时隐式地学习输入与输出序列的对齐。
- 注意力机制:让模型自动学习在预测每个输出单元时,需要关注输入序列的哪些部分,形成软对齐。
- 优势:性能远超传统HMM-GMM模型,免除了繁琐的HMM状态设计和强行对齐,能直接从大量数据中学习端到端的映射。
- 结果:声学模型最终输出的是一个序列的后验概率分布,例如,对于端到端模型,它输出每个可能字符(或字节)在当前位置出现的概率
P(char | xt, context)。
-
语言建模:
- 目标:捕捉语言的统计规则和上下文关系(词序、语法),量化一个单词序列(或更小的单元如字符序列)作为一个自然语言句子出现的可能性有多大
P(W)。 - 作用:帮助声学模型区分同音词(如中文的“是”和“事”),提高识别的准确性。
- 建模单位:可以是词、子词(如字节对编码、Unigram)或字符。
- 常用模型:
- N-gram模型:计算第N个词出现概率,依赖于前N-1个词的出现概率。简单高效,但缺乏长程依赖建模能力。
- 神经语言模型:使用循环神经网络、Transformer等建模。能够捕获更长距离的上下文依赖关系和更复杂的语言模式,效果远优于N-gram。
- 结果:语言模型给出文本序列
W = [w1, w2, ..., wM]的概率P(W)。
- 目标:捕捉语言的统计规则和上下文关系(词序、语法),量化一个单词序列(或更小的单元如字符序列)作为一个自然语言句子出现的可能性有多大
-
解码与搜索:
- 这是整个识别过程的最后一步,也是最复杂的计算之一。任务是将声学模型和语言模型结合,在所有可能的文字序列中找到最优的那个序列
W*。 - 核心公式:最大化声学和语言模型的联合概率(后验概率):
W* = argmax_W P(X | W) * P(W)其中P(X | W)由声学模型通过HMM(或端到端模型的似然度由模型内部计算)提供,P(W)由语言模型提供。 - 挑战:可能的文字序列数量是指数级增长的(每个位置都有很多可能的选择),无法穷举搜索。
- 搜索策略:
- 动态规划算法:Viterbi算法,适合基于HMM的声学模型。
- 集束搜索:维护一组当前最优的候选路径(称为“集束”),在每个时间步只扩展集束中最优的几条路径。这是当前主流的解码方法,尤其适用于神经网络声学模型和语言模型。
- 加权有限状态转换器:将声学模型(状态图)、发音词典(字词到音素的映射)、语言模型(词图)组合成一个大的、带权重的搜索网络(WFST),在网络上进行搜索。
- 结果:解码器输出最有可能的文本序列
W*。现代系统通常能提供前N个可能的候选结果(N-best列表)。
- 这是整个识别过程的最后一步,也是最复杂的计算之一。任务是将声学模型和语言模型结合,在所有可能的文字序列中找到最优的那个序列
总结流程图:
[声音] -> 麦克风 -> [模拟信号] -> ADC采样 -> [数字信号]
[数字信号] -> 预处理 -> 分帧/加窗 -> [短时帧]
[短时帧] -> 特征提取 (如MFCC) -> [特征向量序列 X]
[特征向量序列 X] -> 声学模型 (神经网络) -> [后验概率 P(音素/状态/字符 | X, context)]
[后验概率] + [语言模型 P(W)] -> 解码器/搜索 -> [最可能的文本序列 W*] -> [输出文字]
关键点理解:
- 核心是概率建模:语音识别本质上是基于概率模型解决序列映射问题。
- 端到端趋势:深度学习大大简化了流程,使得直接从音频特征到字符序列的端到端学习成为主流,显著提升了性能。
- 数据驱动:模型性能极度依赖训练数据的数量和质量。
- 上下文至关重要:无论声学模型还是语言模型,都在努力建模广泛的上下文依赖关系。
希望这个详细的中文解释能帮助你理解语音识别系统的工作原理!
嵌入式语音识别系统中的电路设计是如何的
现在社会发展的这么快,什么高科技都涌现出来,什么智能机器人啦,智能手机等,有很多在这里就不一一列举了,在这里我们要说的就是语音识别系统了,现在嵌入式产品如此的多,就像一些智能空调啦,我们可以对着他说
2021-12-20 07:52:03
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- dtmb信号覆盖城市查询
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- 单片机和嵌入式的区别是什么
- amoled屏幕和oled区别
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机
- 元宇宙概念龙头股一览