语音识别原理是什么？

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能。

语音识别（Speech Recognition）的核心目标是将人说的连续语音信号转化为对应的文字序列。其基本原理可以概括为以下几个关键步骤：

信号采集与预处理：
- 采集： 通过麦克风将声音（模拟声波）转换为电信号，再通过模数转换器（ADC）采样成离散的数字信号。
- 预处理：
  - 降噪： 尝试滤除背景噪声（如风扇声、键盘声）。
  - 预加重： 提升高频分量（因为语音信号中高频能量通常较弱），使得频谱更平坦，便于后续分析。
  - 分帧： 将连续的语音信号切割成一个个短片段（通常20-40ms一帧）。因为语音在短时间内（10-30ms）可以看作是平稳的。
  - 加窗： 对每一帧信号应用窗函数（如汉明窗/Hamming窗），减少帧两端的信号不连续性带来的频谱泄漏效应。
特征提取：
- 将每一帧语音信号转换成一个包含关键信息的、低维的数值向量，这就是特征向量。目的是保留对识别文字有用的信息，同时压缩数据量、滤除冗余（如说话人特有的音色）和干扰信息（如噪声）。
- 最常见的特征：MFCC
  - 梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients, MFCC) 是最广泛使用的特征，它模拟了人耳对不同频率声音的非线性感知特性。
  - 计算过程简述：
    1. 对每一帧信号做傅里叶变换 (FFT)，得到频谱。
    2. 将能量谱映射到梅尔尺度上（通过一组梅尔滤波器组），模拟人耳感知。
    3. 对梅尔滤波器组的输出能量取对数（模拟人耳对响度的感知）。
    4. 做离散余弦变换 (DCT)，得到倒谱系数。通常取前12-13个系数，再加上能量和一阶、二阶差分（动态特征），构成最终的特征向量。
- 其他特征： 线性预测系数(LPC)、感知线性预测(PLP)、滤波器组特征(FBank)等。
声学建模：
- 目标是解决“声音”和“语音基本单元”之间的映射关系。即，给定一段语音特征序列，模型要判断其最可能对应哪些音素（phoneme，最小的发音单位，如汉语拼音里的声母、韵母）或子词单元（如三音素状态）。
- 主流模型：
  - 深度学习模型（目前绝对主流）：
    - 深度神经网络： 如深度神经网络、卷积神经网络、循环神经网络及其变体（如LSTM长短期记忆网络、GRU门控循环单元）、Transformer等。这些模型通过学习海量的语音-文本配对数据，自动学习从语音特征到中间语音单元（音素状态）的复杂非线性映射关系，具有强大的建模能力。
    - 连接时序分类： 一种特别适合序列到序列任务的训练准则，允许模型在不需要事先对齐语音帧和音素标签的情况下进行训练。
  - 传统模型（历史基础，较少单独使用）：
    - 混合高斯模型-隐马尔可夫模型： 每个音素/状态用一个GMM描述其观察特征的分布，HMM则描述状态之间的时序转移规律。现在通常被用作深度神经网络的训练目标生成器或后验概率生成器。
发音词典：
- 它定义了词汇（词）如何由更基本的发音单元（音素或三音素状态）组成。类似于一个发音查字（词）典。
- 作用： 建立词汇和声学模型能够处理的基本单元之间的桥梁。
语言模型：
- 它描述了词与词之间组合的概率关系。即，给定一个词序列的历史，下一个词出现的可能性有多大。
- 目的： 利用语言的统计规律（语法、语义），帮助识别系统在多个发音接近的候选词中选择语义和语法上更合理的结果。
- 常见模型：
  - N-gram语言模型： 基于连续的N个词的共现频率进行概率估计（如Trigram看前两个词预测第三个词）。简单有效。
  - 神经网络语言模型： 如RNNLM、Transformer-LM等。能捕捉更远距离的上下文依赖关系，表达能力强。
解码与搜索：
- 这是整个识别过程的核心引擎。解码器结合声学模型、发音词典和语言模型的信息，在巨大的所有可能词序列空间中，搜索出声学证据最匹配且语言模型概率最高的那个词语序列。
- 工作原理：
  - 将输入语音的特征序列送入解码器。
  - 解码器根据发音词典，将词汇展开成音素/状态序列。
  - 声学模型计算当前帧属于某个音素状态的概率。
  - 语言模型计算当前候选词序列的概率。
  - 解码器采用高效的搜索算法（如动态规划的维特比算法、集束搜索）边搜索边剪枝，避免遍历所有可能性。
  - 最终输出概率最高的词序列作为识别结果。

举个简化栗子： 假设你说“你好”。系统：

录下声音“你好”，数字化，分帧处理。
提取每帧的MFCC特征向量。
声学模型（深度神经网络）分析这些特征向量，判断“第1-5帧很可能是n音素的开头状态，第6-15帧很可能是i音素的主体，第16-20帧是静音（h在汉语普通话中接近无声）或过渡，第21-30帧很可能是h音素（实际有气），第31-45帧很可能是ao音素的开始到结束...”。
发音词典告诉解码器，“你”这个词可以由音素序列 /n/ + /i/ 表示；“好”可以由 /h/ + /ao/ 表示。
语言模型告诉解码器，在普通话中，“你”后面接“好”的概率非常高，比接“坏”或“草”高得多。
解码器综合这些信息：声学模型给“n-i”和“h-ao”的音素序列打分很高；发音词典确认“n-i”对应词“你”，“h-ao”对应词“好”；语言模型确认“你好”这个词序列很常见。于是输出“你好”。

总结： 语音识别是一个复杂的概率序列匹配过程。它通过信号处理和特征提取来“听懂”声音的基本模式；通过声学模型将声音模式映射到发音单元；通过发音词典将发音单元组合成词；通过语言模型利用语言规则来选择最可能的词序列；最后通过解码器这个大管家，高效地协调所有模型，在浩瀚的候选空间中找出最佳的识别结果。现代深度学习极大地提升了声学和语言模型的性能，是当今高精度语音识别的基石。端到端语音识别技术也在发展，试图将声学模型、发音词典和语言模型的功能整合到一个统一的神经网络中。