登录/注册

语音识别过程主要包括语音信息的预处理

更多

好的,语音识别过程中的预处理是非常关键的步骤,它的目标是将原始语音信号转换为更适合后续模型(如声学模型)处理的形式,同时去除无关噪声和冗余信息。主要步骤如下(全部用中文解释):

  1. 获取与数字化(采样与量化):

    • 过程: 使用麦克风将声波的连续模拟信号转换为计算机可以处理的离散数字信号。
    • 关键参数:
      • 采样率: 每秒采集多少个样本点(单位:Hz)。常见的有 8kHz(电话语音)、16kHz、44.1kHz(CD 音质)。根据奈奎斯特采样定理,采样率至少要是目标语音最高频率的两倍。人类语音主要能量集中在 4kHz 以下,8kHz 采样即可满足基本需求,16kHz 以上更佳。
      • 量化位数: 每个样本点用多少位(bits)来表示其幅度值。例如,16位量化(2^16=65536 个量化等级)可以提供足够好的动态范围。
  2. 预加重:

    • 目的: 提升语音信号中高频部分的能量。因为发声时,声带产生的激励信号经过口腔辐射时,高频部分比低频部分衰减得更快,导致语音信号高频能量较低。
    • 方法: 对信号应用一个高通滤波器(通常是一个一阶 FIR 滤波器),公式形如 s'(t) = s(t) - a * s(t-1)。其中 s(t) 是当前样本值,s(t-1) 是前一个样本值,a 是衰减因子(通常取 0.95 到 0.98 之间)。
    • 效果: 使信号的频谱更平坦,有助于在后续提取特征(尤其是 MFCC)时获得更好的高频分辨率。
  3. 分帧:

    • 原因: 语音信号是非平稳信号(其统计特性随时间变化),但在一个短时间段内(通常是 10-30 毫秒),可以近似看作是平稳的。因此需要将整个连续的语音信号切割成短片段进行处理。
    • 方法: 将数字化的语音信号划分为连续的、固定长度(帧长)的帧(Frame)。通常帧长为 20 毫秒或 25 毫秒。
    • 帧移: 相邻两帧之间会有一部分重叠。通常帧移(步长)是帧长的一半(10毫秒或12.5毫秒)。重叠确保了信号特征的连续性,避免帧边界处信息丢失。
  4. 加窗:

    • 原因: 由于分帧是直接将信号截断,这会在帧的首尾边界处引入非常突兀的变化(称为截断效应),导致在后续进行频域分析(如 FFT)时,会在频谱上产生大量虚假的高频成分(称为频谱泄漏)。加窗是为了平滑帧边界处的突变。
    • 方法: 将每一帧的离散信号样本点乘以一个窗函数。
    • 常用窗函数:
      • 矩形窗: 窗函数值为 1(等于不加窗),效果最差,频谱泄漏最严重,一般不用。
      • 汉明窗: 非常常用。计算公式为:w(n) = 0.54 - 0.46 * cos(2πn/(N-1))n=0,1,...,N-1,其中 N 是帧长(样本点数)。它在中间部分接近 1,在两端平滑地衰减到接近 0。
      • 汉宁窗: 也较常用。计算公式为:w(n) = 0.5 - 0.5 * cos(2πn/(N-1))
    • 作用: 减小帧起始端和结束端的幅度,使帧内的信号在边界处连续,从而减少频谱泄漏,使得频域特征更清晰。
  5. 静音切除(端点检测):

    • 目的: 识别并去除语音信号开始前和结束后的静音段,以及可能包含的长段停顿(停顿通常也包含环境噪声)。
    • 原因:
      • 静音段不包含有用的语音信息。
      • 去除静音可以降低后续处理的运算量。
      • 减少环境噪声对语音特征提取和模型识别的影响。
    • 方法: 基于短时能量和过零率来检测语音段和非语音段(静音、噪声)。简单流程:
      • 计算每帧的短时能量(信号幅度的平方和)和过零率(信号穿过零轴的次数)。
      • 根据背景噪声水平设定能量和过零率的阈值。
      • 将能量和过零率都低于各自阈值的帧判定为静音段(起点之前和终点之后的长段静音);将包含有用语音的连续帧区域识别出来。
    • 结果: 只保留包含有效语音信号的帧序列,丢弃前后无用的静音段。

总结预处理的核心目标:

这些预处理步骤共同为语音识别系统提供了一个干净、结构化和信息丰富的输入基础,显著影响最终的识别性能。

如何选择合适的语音识别芯片型号

语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统

2025-10-30 16:32:05

ASR语音识别技术应用

语音识别技术应用的分析: 一、ASR语音识别技术原理 ASR

2024-11-18 15:12:15

语音识别机器人的工作原理

语音识别机器人的工作原理主要基于一系列复杂的技术流程,包括信号采集、

2024-10-25 09:25:42

语音信处理pptC-Sen-Speech-2004-3

语音信号处理ppt

资料下载 951414 2022-07-11 16:49:02

语音信处理pptDemo-Sen

语音信号处理ppt

资料下载 951414 2022-07-11 16:48:30

语音信处理pptE-Sen-Speech-2004-5

语音信号处理ppt

资料下载 951414 2022-07-10 14:25:02

语音信处理pptC-Sen-Speech-2004-2

语音信号处理ppt

资料下载 951414 2022-07-10 14:24:40

语音信处理pptC-Sen-Speech-2004-1

语音信号处理ppt

资料下载 951414 2022-07-10 14:23:26

语音控制模块_雷龙发展

逐一详细介绍这些步骤:   1.信号采集   离线语音识别系统的第一步是信号采集。声音信号通过麦克风(传感器)以电信号的形式被捕捉到,这是后续

2024-06-14 17:18:14

离线语音识别及控制是怎样的技术?

了对网络依赖的程度。  二、离线语音识别技术的优势  离线语音识别的优

2023-11-24 17:41:39

离线语音识别和控制的工作原理及应用

:   1.信号采集   离线语音识别系统的第一步是信号采集。声音信号通过麦克风(传感器)以电信号的形式被捕捉到,这是后续

2023-11-07 18:01:32

聊聊什么是语音识别芯片

嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理,

2023-10-08 16:45:27

语音识别芯片的基本原理是什么?

。九芯电子NRK330X语音识别芯片那么它的基本原理是什么呢?嵌入式语音识别

2022-10-17 10:18:12

语音识别】你知道什么是离线语音识别和在线语音识别吗?

是:语音库,它作为识别过程中对比的数据在线的语音库在云端,存储的数据是非常庞大的;而离线的

2021-04-01 17:11:18

语音识别芯片的工作原理和分类

嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理,

2019-06-12 09:49:15

7天热门专题 换一换
相关标签