语音识别系统包括哪些部分
更多
一个好的语音识别系统(ASR)通常由以下核心部分组成:
-
信号前端处理/特征提取 (Frontend Processing / Feature Extraction)
- 目标: 将原始的音频波形信号转换成能够有效表示语音声学特性的数字特征向量序列。
- 主要步骤:
- 预处理: 预加重(提升高频分量)、降噪(减少背景干扰)、语音活动检测(识别哪部分信号包含语音)。
- 分帧和加窗: 将连续语音信号切成短时重叠的“帧”(通常20-40ms/帧,帧移10ms),并对每帧信号应用窗函数(如汉明窗)以减少边缘效应。
- 特征提取: 对每一帧信号计算特征。常用特征包括:
- MFCC (Mel-Frequency Cepstral Coefficients): 最常用的特征之一,模拟人耳听觉特性(梅尔刻度),提取声谱的倒谱系数。
- FBank (Filter Bank Coefficients): MFCC的前一步骤,梅尔尺度上的滤波器组能量。
- PLP (Perceptual Linear Prediction): 另一种感知特征。
- 滤波器组合/频谱图: 有时直接将频谱或对数频谱图输入深度神经网络。
-
声学模型 (Acoustic Model)
- 目标: 学习音频特征(输入)与基本发音单元(输出,如音素、音子、字素)之间的映射关系。它负责回答“当前这段声音听起来像哪个发音单元?”。
- 主要技术:
- 传统模型 (基于HMM): 将声学模型表示为状态序列(通常每个音素有3个状态)。使用高斯混合模型或其变种来表示每个状态的特征分布。深度神经网络兴起前的主流。
- 混合模型 (HMM + DNN): 用深度神经网络替换GMM来估计HMM状态的后验概率(输出是状态的概率)。这是目前主流的方案之一。
- 端到端模型:
- CTC (Connectionist Temporal Classification): 允许神经网络输出与输入序列等长或更短的标记序列(音素/字/字符),通过引入空白标签解决对齐问题。常用于建模音素或字符。
- RNN-T (RNN-Transducer): 在CTC基础上增加一个预测网络(语言模型组件),直接输出单词序列。
- Encoder-Decoder (带注意力机制,如 LAS - Listen, Attend and Spell): 编码器处理输入特征序列,解码器利用注意力机制聚焦于相关输入片段,逐步生成文本输出(字/字符/子词)。
- 基于Transformer的模型: Transformer架构凭借其强大的序列建模能力(尤其是自注意力机制),在端到端ASR系统中取得了显著成功。
-
发音词典/词典 (Pronunciation Lexicon / Vocabulary)
- 目标: 建立了单词与其发音序列(由声学模型建模的基本单元组成,如音素、字素)之间的映射关系。它是连接声学模型输出和语言知识(语言模型)的桥梁。
- 关键作用: 对于中文ASR,发音词典(或分词系统 + 字发音表)尤为重要,因为它定义了模型能识别的词汇范围(词表)以及每个词如何被分解成基本的发音单元(如拼音音节或声韵母组合)。
-
语言模型 (Language Model)
- 目标: 捕捉语言本身的统计规律和结构知识,即单词序列出现的概率。它回答“这个词序列是否合理?”的问题。用于约束声学模型的输出,提高识别准确性(减少同音词错误)。
- 主要类型:
- N-gram模型: 基于上下文窗口(如前N-1个词)预测下一个词的概率。简单但有效,是经典方法。
- 神经网络语言模型:
- RNNLM (Recurrent Neural Network LM): 循环神经网络能建模更长的上下文依赖。
- Transformer LM: 利用Transformer强大的能力学习词与词之间的关系。
- 端到端模型中的隐含建模: RNN-T和Transformer等端到端模型中已经融入了语言模型的能力,但有时仍会与外部语言模型融合以进一步提升性能。
-
解码器/搜索算法 (Decoder / Search Algorithm)
- 目标: 整合声学模型、发音词典和语言模型的信息,在巨大的可能输出序列空间(所有可能的词序列)中高效地搜索出最可能匹配输入声音的文本结果。
- 核心任务: 找到
P(文本 | 音频) ≈ P(音频 | 文本) * P(文本)(贝叶斯公式)达到最大值的那个文本序列。 - 主要方法:
- 基于WFST (Weighted Finite-State Transducers) 的动态解码器: 将发音词典(音素->词)、语言模型(词序列概率)等信息编译成WFST网络图。声学模型得分、词典转换和语言模型打分共同作用于WFST,搜索最优路径(词序列)。
- 束搜索 (Beam Search): 一种高效的启发式搜索算法(尤其在神经网络模型中),在每一步只保留最可能的若干条候选路径(束宽),避免穷举所有可能性。
- 端到端模型中的解码: CTC解码通常使用束搜索或简单的贪心搜索(取每个时间步最大概率输出)。RNN-T和Transformer解码器本身包含自回归解码过程(预测下一个输出时依赖已生成的部分结果)。
-
语言资源 (Language Resources)
- 目标: 训练和优化以上模型(特别是声学模型和语言模型)所需的基础数据。
- 关键数据:
- 语音语料库 (Speech Corpus): 大量带精确文本标注的录音数据。用于训练声学模型。高质量的标注数据至关重要。
- 文本语料库 (Text Corpus): 海量的纯文本数据(如新闻、书籍、网页文本)。用于训练语言模型,学习语言规律和词频。
-
(可选)后处理 (Post-processing)
- 目标: 对解码器输出的原始文本进行优化,使其更符合语言习惯和应用需求。
- 常见操作:
- 文本规范化: 将数字、时间、金额、缩写等统一转换为标准书写形式(如 “100kg” -> “一百千克”)。
- 标点符号恢复: 预测并添加合适的标点符号。
- 大小写转换: 处理英文或其他大小写敏感的语言。
- 格式化: 根据应用场景格式化输出(如会议记录、字幕)。
总结一下流程: 原始语音信号经过前端处理(1)提取特征;特征序列输入声学模型(2)预测发音单元概率;解码器(5)利用发音词典(3)将声学单元组合成候选词,同时利用语言模型(4)评估词序列合理性,进行高效搜索;最终输出的文本可能经过后处理(7)优化显示。整个系统的构建和性能依赖于高质量的语言资源(6)。
特别说明 - 端到端模型: 对于RNN-T、LAS等端到端模型,它们通常融合了部分上述模块(如声学模型、语言模型、解码过程),直接用单一神经网络将音频特征映射到单词/字符序列。但在实际应用中,它们也常会融入外部语言模型(WFST或NNLM)以进一步提升性能。
嵌入式语音识别系统中的电路设计是如何的
现在社会发展的这么快,什么高科技都涌现出来,什么智能机器人啦,智能手机等,有很多在这里就不一一列举了,在这里我们要说的就是语音识别系统了,现在嵌入式产品如此的多,就像一些智能空调啦,我们可以对着他说
2021-12-20 07:52:03
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- dtmb信号覆盖城市查询
- 中科院研发成功2nm光刻机
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- 单片机和嵌入式的区别是什么
- amoled屏幕和oled区别
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机