语音识别系统组成
更多
好的,语音识别(Automatic Speech Recognition, ASR)系统是一个复杂的系统工程,通常包含以下主要组成部分:
-
前端处理 (Front-End Processing / Feature Extraction)
- 输入: 原始音频信号(麦克风采集的模拟声音,经过模数转换变成数字信号)。
- 主要任务: 对原始音频信号进行初步处理,提取对识别有用的、鲁棒的特征(特征向量序列),同时降低后续处理的计算复杂度。
- 关键模块:
- 预处理:
- 降噪/语音增强: 过滤或抑制背景噪声、回声等干扰(例如:谱减法、维纳滤波、深度学习方法)。
- 预加重: 提升高频分量,补偿发声时高频能量衰减。
- 分帧与加窗: 将连续的语音信号分割成短时(通常10-30毫秒)、有重叠(通常重叠一半)的小段(帧),并对每一帧应用窗函数(如汉明窗、汉宁窗)来减少帧边缘的不连续性。
- 特征提取: 计算每帧信号的声学特征。最核心的步骤。
- 梅尔频率倒谱系数: 是最经典和广泛使用的特征。它模拟人耳对频率的感知特性(梅尔刻度),通过对语音帧的傅里叶变换、梅尔滤波器组滤波、取对数、再进行离散余弦变换得到能较好表征声道特性的特征。
- 滤波组能量: MFCC的前一步。
- 线性预测系数: 另一种常用特征。
- 近年来: 深度学习模型有时直接从原始音频或低阶特征(如FBank)学习特征,降低了对手工设计特征(如MFCC)的依赖。
- 预处理:
-
声学模型 (Acoustic Model)
- 输入: 前端处理得到的特征向量序列(代表声音在时间上的变化)。
- 主要任务: 建立声音特征与音素(语音中最小的可区分单位,如“p”、“b”、“a”)或子词单元(如声韵母)之间的概率映射关系。它学习不同音素在特征空间中的概率分布。
- 核心技术:
- 隐马尔可夫模型: 早期核心模型,用于建模状态的序列转移(如音素内状态的转移:起始、稳定、结束)和状态发出的观测值(特征向量)的概率分布。每个音素通常由一个HMM表示。
- 高斯混合模型: 常与HMM结合使用,用于对HMM状态下发出的特征向量的概率分布进行建模。
- 深度神经网络: 现代声学模型的主流技术。
- DNN-HMM混合系统: DNN替代GMM,用于估计给定特征向量下属于每个HMM状态的后验概率(P(state | feature)),这比GMM建模的似然概率(P(feature | state))更鲁棒。
- 端到端模型:
- 连接时序分类: 一种无需显式帧级对齐的训练目标。
- 注意力机制: 直接学习特征序列与词序列之间的对齐和映射关系。
- 常用网络结构: 循环神经网络(RNN,如LSTM、GRU)、卷积神经网络(CNN)、Transformer(因其强大的序列建模能力而迅速成为主流)。
- 输出: 每一帧声音属于各个音素或子词单元的概率。
-
语言模型 (Language Model)
- 输入: 词汇表(或子词单元表)。
- 主要任务: 建模词序列(或子词序列)出现的合理性概率。例如,“我今天很开心”比“苹果我今天开心”具有更高的概率和更合理的语言结构。
- 关键作用: 帮助系统在声学特征存在歧义时(比如同音字/词),基于语言的统计规律和上下文,选择语义上更可能出现的词语序列。极大地提高了识别的准确性和流畅度。
- 核心技术:
- N-gram模型: 基于前面N-1个词来预测当前词的概率。计算简单,但难以建模长距离依赖。
- 神经语言模型: 现代主流技术。
- 基于 RNN / LSTM / GRU 的模型: 能有效建模长距离上下文依赖。
- Transformer-based 模型: (如BERT、GPT系列)因其无与伦比的上下文表示能力,在大规模预训练后作为语言模型效果卓越(通常微调使用)。
- 其它: 基于文法的模型(应用受限)。
- 输出: 词序列的联合概率P(w1, w2, ..., wm)。
-
发音词典 (Pronunciation Lexicon)
- 输入: 词汇表。
- 主要任务: 建立词到其组成音素(或子词单元)序列的映射关系。
- 格式: 一个大的查询表(或映射函数)。例如:
- 我:
wo3(注:这里wo3代表拼音音节序列对应的音素序列) - 今天:
jin1 tian1 - 开心:
kai1 xin1
- 我:
- 关键作用: 连接声学模型和语言模型的桥梁。 它将语言模型预测的词序列与声学模型建模的音素序列联系起来。
-
解码器 (Decoder)
- 输入:
- 前端特征序列(或声学模型输出的概率分布序列)。
- 声学模型(提供帧级别的音素概率)。
- 语言模型(提供词序列概率)。
- 发音词典(提供词与音素的对应关系)。
- 主要任务: 在整个可能的候选词序列空间中,搜索并选择得分最高的那条路径。得分结合了声学模型输出(这个声音像某个音素的概率)和语言模型输出(这些词这样组合是否合理自然)。这是一个动态规划搜索问题。
- 核心技术:
- 动态规划:
- 时间同步的束搜索: 最常用。它结合了隐马尔可夫模型的状态转移和加权有限状态机(通常结合了声学模型HMM拓扑、词典、语言模型信息)的概念,在时间帧上同步地搜索,并通过剪枝(Beam Search)保留概率最高的N条候选路径(称为“束宽”),避免搜索空间爆炸。
- 启发式搜索:
- 堆解码: 按路径得分排序搜索。
- *A 搜索:** 结合启发函数加速搜索。
- 动态规划:
- 输出: 识别出的最佳(或N个最佳)词序列。
- 输入:
-
端点检测与语音活动检测
- 输入: 原始音频流。
- 主要任务: 检测音频流中语音段落的起点和终点,区分语音段(包含需要识别的语音)和非语音段(沉默、背景噪声)。
- 重要性: 在实时识别系统中至关重要。它能忽略无效的非语音部分,节省计算资源,并且有助于提高准确性(避免语言模型对无效静音建模)。
- 技术: 通常基于能量、过零率、频域特征或机器学习/深度学习模型(如二分类:语音/非语音)。
-
后端处理/集成 (Back-End Processing / System Integration)
- 将上述核心组件集成在一起,形成完整的识别流程。
- 可能包括:
- 置信度评分: 评估识别结果的可靠性。
- 结果后处理: 如数字规整(把“幺两三”转成“123”)、标点预测、大小写处理、领域自适应(如医疗、法律术语)。
- 纠错: 基于语言模型或特定规则进行一定纠错。
- 输出格式化: 转换为最终所需的格式(文本流、带时间戳的字幕等)。
- 系统资源管理: 确保低延迟、高吞吐量(尤其对于实时系统)。
总结: 一个典型的ASR系统工作流程是: 原始音频 -> (预处理/VAD) -> 前端特征提取 -> 声学模型 -> (发音词典 + 语言模型) -> 解码器搜索最优词序列 -> 后端处理 -> 输出识别文本。
现代端到端模型尝试简化或合并这些组件(特别是声学模型、发音词典、解码器),利用一个统一的神经网络直接从音频特征序列预测词序列(或其概率),但其内部仍然隐式或显式地建模了类似的功能。
嵌入式语音识别系统中的电路设计是如何的
现在社会发展的这么快,什么高科技都涌现出来,什么智能机器人啦,智能手机等,有很多在这里就不一一列举了,在这里我们要说的就是语音识别系统了,现在嵌入式产品如此的多,就像一些智能空调啦,我们可以对着他说
2021-12-20 07:52:03
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 芯片的工作原理是什么?
- ssd是什么意思
- 什么是蓝牙?它的主要作用是什么?
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- 中科院研发成功2nm光刻机
- 苹果手机哪几个支持无线充电的?
- dtmb信号覆盖城市查询
- 怎样挑选路由器?
- 华为芯片为什么受制于美国?
- 元宇宙概念股龙头一览
- type-c四根线接法图解
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- 单片机和嵌入式的区别是什么
- amoled屏幕和oled区别
- BLDC电机技术分析
- 复位电路的原理及作用
- dsp是什么意思?有什么作用?
- iphone13promax电池容量是多少毫安
- 苹果无线充电器怎么使用?
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 传感器常见类型有哪些?
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机