语音识别系统讲解
更多
好的,我们来详细讲解一下语音识别系统。语音识别就是让计算机听懂人类的语音,并将其转换为对应的文字序列(或执行命令)。这是一个融合了声学、信号处理、模式识别、语言学和人工智能等多个领域的技术。
一、 核心目标
将输入的语音信号(Audio Signal) 转化为对应的文字序列(Text Transcript)。
二、 核心处理流程(简化版)
一个典型的ASR系统工作流程就像一个管道(Pipeline),可以分为以下几个主要阶段:
-
信号预处理:
- 采样: 麦克风捕捉的声音是连续的模拟信号。第一步是将其数字化,即按照一定频率(如16kHz, 44.1kHz)进行采样,得到离散的数字信号。
- 预加重: 增强语音信号中的高频成分,补偿口唇辐射效应(声音从口中发出时,高频比低频衰减得更快),使频谱更平坦。
- 分帧: 语音信号是时变的(发音随时间变化),但短时间内(如20-40毫秒一帧)可以认为是平稳的。将连续信号切分成一小段一小段有重叠(通常是50%重叠)的帧。
- 加窗: 对每一帧信号乘以一个窗函数(如汉明窗、海宁窗),目的是减小信号在帧边缘的不连续性,减小频谱泄露。这相当于让你聚焦看一帧中间的部分。
- 端点检测: 检测语音的开始点和结束点,去除无声段(Silence)或背景噪声段(Noise),只保留有实际语音的部分。这对于提高效率至关重要。
-
特征提取:
- 这是至关重要的一步!目标是从原始的、高维的音频帧数据中,提取出最能代表语音内容本质、且对说话人、背景噪声、说话速率等变化相对鲁棒的低维特征向量。
- 梅尔频率倒谱系数: 目前最主流、最经典的特征,考虑了人耳对频率的感知特性(梅尔刻度)。计算步骤:
- 对每帧信号做快速傅里叶变换,得到幅度谱。
- 将幅度谱通过一组梅尔尺度滤波器组(低频区域滤波器窄且多,高频区域宽且少)。
- 将每个滤波器的能量取对数(模拟人耳对响度的非线性感知)。
- 对对数能量序列做离散余弦变换。
- 保留前12-13个系数(对应倒谱的低频部分,主要与声道形状相关),通常还会加上它们的一阶(Delta)和二阶(Delta-Delta)差分来表征动态特性。
- 其他可选特征:
- 线性预测系数
- 感知线性预测系数
- 滤波器组输出
- 深度神经网络提取的特征
-
声学建模:
- 目标:学习声学特征向量到音素(Phoneme) 或更小的发音单元(如上下文相关音素、状态)之间的映射关系。
- 传统方法:高斯混合模型-隐马尔可夫模型:
- 高斯混合模型: 建模每个状态(如一个音素的开始、中间、结束阶段)发出特征向量的概率分布(由多个高斯分布混合而成)。
- 隐马尔可夫模型: 建模语音序列的时序结构。HMM的状态对应音素或其状态(比如一个音素通常用3个状态表示),状态间的转移对应发音从上一个单元到下一个单元的过程。观测序列就是声学特征向量序列。
- 结合:GMM-HMM的核心思想是,用GMM来计算在某个时刻,一个HMM状态发出当前特征向量的似然值(观测概率)。解码过程(找最可能的状态序列/音素序列)使用Viterbi算法。
- 现代主流:深度神经网络:
- DNN-HMM混合系统: DNN取代GMM来计算HMM状态的后验概率(给定特征向量,属于某个状态的概率),然后通过贝叶斯公式转换为似然值供HMM使用。
- 端到端系统: 直接学习从特征序列到文字序列的映射(不再是先到音素)。常见的模型结构:
- CTC: 允许输出序列长度小于输入特征序列长度。通过引入空白符号
<blank>和一个折叠规则(重复字符合并,空白符去掉)来对齐不定长的输入和输出。常用于RNN/TDNN。 - 基于Attention的Encoder-Decoder: Encoder(如RNN,Transformer)将特征序列编码为上下文向量序列,Decoder(另一个RNN/Traansformer)依赖上下文向量序列和已生成的文字,逐个生成目标文字。Attention机制决定当前生成时刻该关注Encoder的哪部分特征。Transformer因其强大的并行和长距离建模能力成为主流选择。
- RNN-T: 结合CTC和RNN/LSTM,Decoder状态是内部循环更新的,不需要显式Attention。在处理实时流式识别上有优势。
- CTC: 允许输出序列长度小于输入特征序列长度。通过引入空白符号
-
语言建模:
- 目标: 建模语言的规律性,即一个词序列(句子)出现的概率。这有助于系统在多个发音相似的词或短语之间做出符合语言习惯的选择(解决声学上的歧义)。
- 任务形式: 计算一个词序列
w = w1, w2, ..., wn出现的概率:P(w) = P(w1) * P(w2|w1) * ... * P(wn|w1, w2, ..., w(n-1))。 - 常用模型:
- N-gram模型: 近似地只考虑最近的
N-1个历史词。优点是简单高效,但只能捕捉局部依赖关系。例如:P(识别|语音)。 - 神经网络语言模型: 使用RNN、LSTM、Transformer、Bert等深度学习模型。能捕捉更长的上下文依赖关系,表达力更强,是当前的主流。在系统融合时通常以浅融合(加权求和)或深融合(共同训练)的方式提供概率信息。
- N-gram模型: 近似地只考虑最近的
-
解码器:
- 任务: 这是推理阶段的核心!结合声学模型的输出(对每一帧特征属于哪些发音单元的概率或分数)和语言模型提供的概率信息,在所有可能的文字序列中,找出得分最高、概率最大的那个文字序列。
- 实现方式:
- 动态解码: 核心是搜索!
- 维特比算法: 传统GMM-HMM时代的标准方法。基于动态规划,在HMM状态图中找到概率最大的状态路径。
- 束搜索: 非常常用!在每个时间步,只保留得分最高的
K个候选路径(Beam),然后沿着这些候选路径继续扩展下一步。K被称为束宽。这大大减少了计算量,是高效近似搜索的关键。
- 加权有限状态转换器: 在基于HMM或WFST编译的系统中,将声学模型、发音词典、语言模型都编译进一个巨大的WFST图中,然后用动态规划解码。
- 动态解码: 核心是搜索!
三、 核心挑战
- 环境噪声: 背景噪音干扰特征提取和模型判断。
- 说话人差异: 不同人有不同的音色、口音、语速。
- 麦克风特性与录音方式: 麦克风质量、远近、角度差异导致信号不同。
- 语音模糊性: 很多词语发音相似(如“识别” vs “十别”)。
- 语言多样性: 语种、方言、口语化表达(俚语、简略句)、新词不断涌现。
- 计算效率: 解码过程计算量大,尤其对实时应用至关重要。
- 远场识别: 手机靠近说话和远处说话难度不同。
四、 主要应用场景
- 智能助手: Siri, Google Assistant, 天猫精灵, 小爱同学等。
- 语音输入法: 手机、电脑的语音转文字输入。
- 智能音箱/智能家居控制: “打开空调”、“调高音量”。
- 字幕生成: 视频会议、影视作品自动生成字幕。
- 语音搜索: 语音输入搜索关键词。
- 客户服务/呼叫中心: IVR交互、实时质检、客户意图识别。
- 语音控制: 车载导航、工业自动化。
- 语音翻译: 实时口语翻译(涉及语音识别是其中第一步)。
五、 发展趋势
- 端到端模型主流化: 结构更简洁,性能逼近甚至超越传统多组件系统。Transformer-based结构是主流。
- 大规模预训练 + 微调: 在海量、未标注的语音数据上预训练庞大的基础模型(如Wav2Vec系列、HuBERT),然后在特定任务数据上进行微调,显著提升小样本场景的性能。
- 多语言和多方言建模: 模型适应多种语言和方言的需求越来越强。
- 提高鲁棒性: 持续改进在噪声、远场、多人讲话、非母语口音等复杂场景下的识别准确率(通过数据增强、对抗训练、专用模型等)。
- 流式处理优化: 追求更低延迟的实时识别,满足会议记录、同声传译等需求(RNN-T是常用结构)。
- 少样本/零样本学习: 期望模型能更快适应新词、新人或新语种。
- 与大型语言模型结合: 使用强大的LLM作为语言模型或进行后处理(重打分、纠错),大幅提升识别结果的流畅性和准确性。这被称为LLM Rescoring。有些系统尝试让LLM直接参与解码过程。
六、 图解示意
+-------------------+
原始语音 -----> | 信号预处理 | -----> 分帧加窗后的帧序列
+-------------------+ |
V
+-------------------+ 特征
| 特征提取 | -----> 特征向量序列 (如MFCCs)
+-------------------+ |
V
声学模型训练 +-------------------+ 声学模型打分
+----------------| 声学模型训练 | <-----------------------+
| +-------------------+
| |
V V
训练数据(音素标注) 训练好的声学模型 -----------+
|
V
+-------------------+ 概率/分数 +-------------------+
| 解码器 | <-------- | 语言模型 |
+-------------------+ +-------------------+
| (P(词序列))
V
最可能的文字序列 <---
(这是一个高度简化的示意图,实际流程更复杂,且现代端到端系统将AcousticModel、Lexicon、LM等整合更紧密)
希望这个中文讲解能帮助你全面理解语音识别系统的工作原理、核心组件和挑战!如果你想深入了解某个环节,比如声学模型细节、特征提取或者最新Transformer结构,请告诉我。
嵌入式语音识别系统中的电路设计是如何的
现在社会发展的这么快,什么高科技都涌现出来,什么智能机器人啦,智能手机等,有很多在这里就不一一列举了,在这里我们要说的就是语音识别系统了,现在嵌入式产品如此的多,就像一些智能空调啦,我们可以对着他说
2021-12-20 07:52:03
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- dtmb信号覆盖城市查询
- EDA是什么?有什么作用?
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- amoled屏幕和oled区别
- 单片机和嵌入式的区别是什么
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机
- 元宇宙概念龙头股一览