语音识别技术的基本原理是什么?

语音识别技术的核心目标是将人类的语音信号转换成对应的文字内容。其基本原理可以概括为以下几个主要步骤：

信号预处理与特征提取
- 输入： 原始的声音波形（一维时间序列）。
- 预处理：
  - 采样与量化： 将连续的模拟声音信号转换成数字信号（离散的时间点和幅度）。
  - 预加重： 提升高频部分能量，补偿语音信号中高频部分通常较弱的情况。
  - 分帧： 将长段语音切分成非常短（如20-40毫秒）的小段，称为“帧”。这假设语音信号在短时间内是相对稳定的（“短时平稳”）。
  - 加窗： 对每一帧信号应用窗函数（如汉明窗），以减少帧边缘信号不连续造成的频谱泄露。
- 特征提取：
  - 提取最能代表语音内容的关键特征，同时尽量去除说话人个性、环境噪声、信道差异等无关信息。
  - 最常用特征：梅尔频率倒谱系数（MFCC）： 这是目前最主流的特征。
    - 计算帧的功率谱（通常用快速傅里叶变换 - FFT）。
    - 通过一组梅尔尺度滤波器组对功率谱进行平滑和压缩（模拟人耳对频率的感知特性，对低频更敏感）。
    - 对每个滤波器的输出能量取对数（人耳对声音强度的感知也是近似对数的）。
    - 进行离散余弦变换（DCT），得到MFCC系数。它代表了语音频谱的包络信息（反映了发音器官的形状），对声道特征特别敏感。
  - 其他特征： 线性预测系数、感知线性预测系数、滤波器组能量（FBank）等。
声学模型（Acoustic Model）
- 任务： 建立语音特征序列（通常由一帧帧特征向量组成）与基本发音单元（通常是音素，Phoneme）之间的映射关系。
- 核心模型（传统与现代）：
  - 传统主流：隐马尔可夫模型 - 高斯混合模型（HMM-GMM）
    - HMM： 用于对状态序列（对应音素的各个部分）以及状态之间的时序转移概率进行建模。
    - GMM： 用来描述在每个HMM状态下，观测到的语音特征向量（特征向量） 的概率分布（即在这个状态下发出某个声音特征的可能性）。
    - 组合HMM和GMM：HMM建模时序变化，GMM建模每个状态的观测特征分布。
  - 现代主流：深度学习模型 (DNN, CNN, RNN, Transformer 等)
    - 模型（如深度神经网络 - DNN）直接学习从输入特征帧到音素状态（HMM状态） 或音素的概率分布。
    - CTC (Connectionist Temporal Classification)： 一种常用训练准则，允许模型在不对齐输入帧和输出标签的情况下进行训练，特别适合处理输入输出长度不一致的序列问题。
    - RNN/Transformer 等序列模型： 显式地建模语音信号的长时依赖关系。
  - 混合模型： 如 DNN-HMM：用 DNN 替换 GMM 来计算 HMM 状态的后验概率，性能通常优于 HMM-GMM。
- 输出： 给定输入特征序列，声学模型给出对应每个时间点上各个音素（或其状态）的概率分数。
语言模型（Language Model）
- 任务： 建模人类语言的内在规律，即词语序列出现的可能性（概率）。
- 目的： 帮助识别系统在多个可能的候选文字序列中选择更符合语法和语义习惯的那个。
- 常用模型：
  - N-gram 模型： 基于统计，计算词语序列 w1, w2, ..., wm 的概率，通常简化为基于前面 N-1 个词来预测第 N 个词的概率（即 P(wi | w_{i-N+1} ... w_{i-1})）。简单高效。
  - 神经网络语言模型 (NNLM)： 使用 RNN、LSTM 或 Transformer 等深度学习模型来学习词语序列的长期依赖关系和更复杂的语言结构，表达能力强于 N-gram。
- 输出： 给定一串候选的词序列，语言模型给出该词序列的概率 P(W)。
发音词典（Lexicon / Pronunciation Dictionary）
- 作用： 作为桥梁，连接声学模型处理的音素和语言模型处理的词语。
- 内容： 一个词表，列出了系统中所有可能的词语及其对应的音素序列。
- 示例： "Hello" -> /h ə l oʊ/
解码与搜索（Decoder）
- 任务： 将前面所有组件整合起来，在庞大的、潜在可能的词语序列空间中进行搜索，找到最优的文本序列。
- 输入： 声学模型输出的特征-音素概率、语言模型输出的词语序列概率、发音词典定义的词语-音素映射。
- 搜索算法： 核心是在由状态（音素/HMM状态）、词、词序列构成的状态空间中进行图搜索或束搜索（Beam Search），找到一条概率最大化的路径。
  - 构建一个巨大的搜索图（搜索空间），节点代表状态或词汇信息。
  - 声学模型分数： 衡量语音特征与候选音素序列的匹配度。
  - 语言模型分数： 衡量候选词序列本身的合理性。
  - 解码器目标： 找到一个词序列 W，使得 P(W | X)（给定语音信号 X，词序列 W 的后验概率）最大化。根据贝叶斯定理，这等价于最大化 P(X | W) * P(W)，其中 P(X | W) 主要来自声学模型（通过发音词典将词转换成音素序列），P(W) 来自语言模型。
- 输出： 最终识别出的文字序列。

简化流程图：

原始语音波形 -> 信号预处理 -> 特征提取（如 MFCC） -> [声学模型] -> (音素序列概率)
                         |                     |
                    发音词典             语言模型
                         |                     |
                          ------> 解码搜索 <------
                                      |
                                      v
                                     识别文本

关键点总结：

从物理信号到抽象符号： 核心是将声音的物理波形一步步转化为有意义的文字符号。
统计学基础： 整个过程高度依赖概率统计（最大似然估计、贝叶斯准则）。
深度学习的统治地位： 现代语音识别系统的声学模型几乎全部由深度学习模型（特别是端到端模型如CTC、RNN-T、LAS）驱动，语言模型也广泛使用神经网络模型。HMM-GMM已退居二线。
联合优化： 端到端模型（如LAS， Listen, Attend and Spell）尝试绕过明确的声学模型-语言模型-发音词典的分割，直接学习从声学特征到文字序列的映射。

局限性（简要提及）：