登录/注册

语音识别系统组成

更多

好的,语音识别(Automatic Speech Recognition, ASR)系统是一个复杂的系统工程,通常包含以下主要组成部分:

  1. 前端处理 (Front-End Processing / Feature Extraction)

    • 输入: 原始音频信号(麦克风采集的模拟声音,经过模数转换变成数字信号)。
    • 主要任务: 对原始音频信号进行初步处理,提取对识别有用的、鲁棒的特征(特征向量序列),同时降低后续处理的计算复杂度。
    • 关键模块:
      • 预处理:
        • 降噪/语音增强: 过滤或抑制背景噪声、回声等干扰(例如:谱减法、维纳滤波、深度学习方法)。
        • 预加重: 提升高频分量,补偿发声时高频能量衰减。
      • 分帧与加窗: 将连续的语音信号分割成短时(通常10-30毫秒)、有重叠(通常重叠一半)的小段(帧),并对每一帧应用窗函数(如汉明窗、汉宁窗)来减少帧边缘的不连续性。
      • 特征提取: 计算每帧信号的声学特征。最核心的步骤
        • 梅尔频率倒谱系数:最经典和广泛使用的特征。它模拟人耳对频率的感知特性(梅尔刻度),通过对语音帧的傅里叶变换、梅尔滤波器组滤波、取对数、再进行离散余弦变换得到能较好表征声道特性的特征。
        • 滤波组能量: MFCC的前一步。
        • 线性预测系数: 另一种常用特征。
        • 近年来: 深度学习模型有时直接从原始音频或低阶特征(如FBank)学习特征,降低了对手工设计特征(如MFCC)的依赖。
  2. 声学模型 (Acoustic Model)

    • 输入: 前端处理得到的特征向量序列(代表声音在时间上的变化)。
    • 主要任务: 建立声音特征与音素(语音中最小的可区分单位,如“p”、“b”、“a”)或子词单元(如声韵母)之间的概率映射关系。它学习不同音素在特征空间中的概率分布。
    • 核心技术:
      • 隐马尔可夫模型: 早期核心模型,用于建模状态的序列转移(如音素内状态的转移:起始、稳定、结束)和状态发出的观测值(特征向量)的概率分布。每个音素通常由一个HMM表示。
      • 高斯混合模型: 常与HMM结合使用,用于对HMM状态下发出的特征向量的概率分布进行建模。
      • 深度神经网络: 现代声学模型的主流技术。
        • DNN-HMM混合系统: DNN替代GMM,用于估计给定特征向量下属于每个HMM状态的后验概率(P(state | feature)),这比GMM建模的似然概率(P(feature | state))更鲁棒。
        • 端到端模型:
          • 连接时序分类: 一种无需显式帧级对齐的训练目标。
          • 注意力机制: 直接学习特征序列与词序列之间的对齐和映射关系。
          • 常用网络结构: 循环神经网络(RNN,如LSTM、GRU)、卷积神经网络(CNN)、Transformer(因其强大的序列建模能力而迅速成为主流)。
    • 输出: 每一帧声音属于各个音素或子词单元的概率。
  3. 语言模型 (Language Model)

    • 输入: 词汇表(或子词单元表)。
    • 主要任务: 建模词序列(或子词序列)出现的合理性概率。例如,“我今天很开心”比“苹果我今天开心”具有更高的概率和更合理的语言结构。
    • 关键作用: 帮助系统在声学特征存在歧义时(比如同音字/词),基于语言的统计规律和上下文,选择语义上更可能出现的词语序列。极大地提高了识别的准确性和流畅度。
    • 核心技术:
      • N-gram模型: 基于前面N-1个词来预测当前词的概率。计算简单,但难以建模长距离依赖。
      • 神经语言模型: 现代主流技术。
        • 基于 RNN / LSTM / GRU 的模型: 能有效建模长距离上下文依赖。
        • Transformer-based 模型: (如BERT、GPT系列)因其无与伦比的上下文表示能力,在大规模预训练后作为语言模型效果卓越(通常微调使用)。
      • 其它: 基于文法的模型(应用受限)。
    • 输出: 词序列的联合概率P(w1, w2, ..., wm)。
  4. 发音词典 (Pronunciation Lexicon)

    • 输入: 词汇表。
    • 主要任务: 建立词到其组成音素(或子词单元)序列的映射关系。
    • 格式: 一个大的查询表(或映射函数)。例如:
      • 我:wo3(注:这里wo3代表拼音音节序列对应的音素序列)
      • 今天:jin1 tian1
      • 开心:kai1 xin1
    • 关键作用: 连接声学模型和语言模型的桥梁。 它将语言模型预测的词序列与声学模型建模的音素序列联系起来。
  5. 解码器 (Decoder)

    • 输入:
      • 前端特征序列(或声学模型输出的概率分布序列)。
      • 声学模型(提供帧级别的音素概率)。
      • 语言模型(提供词序列概率)。
      • 发音词典(提供词与音素的对应关系)。
    • 主要任务: 在整个可能的候选词序列空间中,搜索并选择得分最高的那条路径。得分结合了声学模型输出(这个声音像某个音素的概率)和语言模型输出(这些词这样组合是否合理自然)。这是一个动态规划搜索问题。
    • 核心技术:
      • 动态规划:
        • 时间同步的束搜索: 最常用。它结合了隐马尔可夫模型的状态转移和加权有限状态机(通常结合了声学模型HMM拓扑、词典、语言模型信息)的概念,在时间帧上同步地搜索,并通过剪枝(Beam Search)保留概率最高的N条候选路径(称为“束宽”),避免搜索空间爆炸。
        • 启发式搜索:
          • 堆解码: 按路径得分排序搜索。
          • *A 搜索:** 结合启发函数加速搜索。
    • 输出: 识别出的最佳(或N个最佳)词序列。
  6. 端点检测与语音活动检测

    • 输入: 原始音频流。
    • 主要任务: 检测音频流中语音段落的起点和终点,区分语音段(包含需要识别的语音)和非语音段(沉默、背景噪声)。
    • 重要性: 在实时识别系统中至关重要。它能忽略无效的非语音部分,节省计算资源,并且有助于提高准确性(避免语言模型对无效静音建模)。
    • 技术: 通常基于能量、过零率、频域特征或机器学习/深度学习模型(如二分类:语音/非语音)。
  7. 后端处理/集成 (Back-End Processing / System Integration)

    • 将上述核心组件集成在一起,形成完整的识别流程。
    • 可能包括:
      • 置信度评分: 评估识别结果的可靠性。
      • 结果后处理: 如数字规整(把“幺两三”转成“123”)、标点预测、大小写处理、领域自适应(如医疗、法律术语)。
      • 纠错: 基于语言模型或特定规则进行一定纠错。
      • 输出格式化: 转换为最终所需的格式(文本流、带时间戳的字幕等)。
    • 系统资源管理: 确保低延迟、高吞吐量(尤其对于实时系统)。

总结: 一个典型的ASR系统工作流程是: 原始音频 -> (预处理/VAD) -> 前端特征提取 -> 声学模型 -> (发音词典 + 语言模型) -> 解码器搜索最优词序列 -> 后端处理 -> 输出识别文本。

现代端到端模型尝试简化或合并这些组件(特别是声学模型、发音词典、解码器),利用一个统一的神经网络直接从音频特征序列预测词序列(或其概率),但其内部仍然隐式或显式地建模了类似的功能。

基于HMM的语音识别系统是怎么训练的

基于HMM的语音识别系统是怎么训练的?有哪些步骤?

2021-12-23 06:16:50

嵌入式语音识别系统中的电路设计是如何的

现在社会发展的这么快,什么高科技都涌现出来,什么智能机器人啦,智能手机等,有很多在这里就不一一列举了,在这里我们要说的就是语音识别系统了,现在嵌入式产品如此的多,就像一些智能空调啦,我们可以对着他说

2021-12-20 07:52:03

语音识别系统在智能家庭系统中的应用是什么?

语音识别系统在智能家庭系统中的应用是什么?

2021-05-31 06:54:34

基于DSP的车载语音识别系统方案设计

电子发烧友网站提供《基于DSP的车载语音识别系统方案设计.pdf》资料免费下载

资料下载 刘燕 2023-11-08 09:14:38

语音识别系统的单片机控制

电子发烧友网站提供《语音识别系统的单片机控制.pdf》资料免费下载

资料下载 李巍 2023-10-13 11:22:32

基于DTW算法语音识别系统仿真及DSP实现

电子发烧友网站提供《基于DTW算法语音识别系统仿真及DSP实现.pdf》资料免费下载

资料下载 陆军航空兵 2023-10-08 11:52:40

基于性能影响因素分析的语音识别平台体系结构

语音识别技术的应用领域众多,而语音识别系统的性能评测对

资料下载 佚名 2021-04-22 15:44:02

基于MATLAB的车牌识别系统

基于MATLAB的车牌识别系统设计说明。

资料下载 虚极读不动 2021-04-16 09:30:42

如何去实现一种特定人语音识别系统

特定人语音识别的方法有哪些?特定人语音识别系统是由哪些部分

2021-05-19 06:44:14

基于DSP的汉字语音识别系统如何实现

基于DSP的汉字语音识别系统如何实现

2021-03-12 06:33:15

语音识别设置能删除吗_语音识别系统工作流程

本文首先介绍了语音识别设置的删除,其次阐述了语音识别系统工作流程,最后介

2020-04-01 09:47:40

基于LabVIEW的语音识别系统

基于LabVIEW的语音识别系统

2020-03-07 16:41:15

使用紧急呼叫和DSP的语音识别系统

开发并测试了安装在汽车内、使用简单离散字的特定发音人语音识别系统。

2019-11-04 07:23:41

语音识别系统功能_语音识别系统的应用

对比语音识别技术的两个发展方向,由于基于不同的运算平台,因此具有不同的特点。大词汇量连续语音

2019-10-01 09:21:00

怎么设计基于嵌入式系统语音口令识别系统

随着计算机技术和信息技术的迅速发展,语音口令识别已经成为了人机交互的一个重要方式之一。语音口令

2019-09-03 08:27:23
7天热门专题 换一换
相关标签