语音识别过程主要包括语音信息的预处理
更多
好的,语音识别过程中的预处理是非常关键的步骤,它的目标是将原始语音信号转换为更适合后续模型(如声学模型)处理的形式,同时去除无关噪声和冗余信息。主要步骤如下(全部用中文解释):
-
获取与数字化(采样与量化):
- 过程: 使用麦克风将声波的连续模拟信号转换为计算机可以处理的离散数字信号。
- 关键参数:
- 采样率: 每秒采集多少个样本点(单位:Hz)。常见的有 8kHz(电话语音)、16kHz、44.1kHz(CD 音质)。根据奈奎斯特采样定理,采样率至少要是目标语音最高频率的两倍。人类语音主要能量集中在 4kHz 以下,8kHz 采样即可满足基本需求,16kHz 以上更佳。
- 量化位数: 每个样本点用多少位(bits)来表示其幅度值。例如,16位量化(2^16=65536 个量化等级)可以提供足够好的动态范围。
-
预加重:
- 目的: 提升语音信号中高频部分的能量。因为发声时,声带产生的激励信号经过口腔辐射时,高频部分比低频部分衰减得更快,导致语音信号高频能量较低。
- 方法: 对信号应用一个高通滤波器(通常是一个一阶 FIR 滤波器),公式形如
s'(t) = s(t) - a * s(t-1)。其中s(t)是当前样本值,s(t-1)是前一个样本值,a是衰减因子(通常取 0.95 到 0.98 之间)。 - 效果: 使信号的频谱更平坦,有助于在后续提取特征(尤其是 MFCC)时获得更好的高频分辨率。
-
分帧:
- 原因: 语音信号是非平稳信号(其统计特性随时间变化),但在一个短时间段内(通常是 10-30 毫秒),可以近似看作是平稳的。因此需要将整个连续的语音信号切割成短片段进行处理。
- 方法: 将数字化的语音信号划分为连续的、固定长度(帧长)的帧(Frame)。通常帧长为 20 毫秒或 25 毫秒。
- 帧移: 相邻两帧之间会有一部分重叠。通常帧移(步长)是帧长的一半(10毫秒或12.5毫秒)。重叠确保了信号特征的连续性,避免帧边界处信息丢失。
-
加窗:
- 原因: 由于分帧是直接将信号截断,这会在帧的首尾边界处引入非常突兀的变化(称为截断效应),导致在后续进行频域分析(如 FFT)时,会在频谱上产生大量虚假的高频成分(称为频谱泄漏)。加窗是为了平滑帧边界处的突变。
- 方法: 将每一帧的离散信号样本点乘以一个窗函数。
- 常用窗函数:
- 矩形窗: 窗函数值为 1(等于不加窗),效果最差,频谱泄漏最严重,一般不用。
- 汉明窗: 非常常用。计算公式为:
w(n) = 0.54 - 0.46 * cos(2πn/(N-1)),n=0,1,...,N-1,其中 N 是帧长(样本点数)。它在中间部分接近 1,在两端平滑地衰减到接近 0。 - 汉宁窗: 也较常用。计算公式为:
w(n) = 0.5 - 0.5 * cos(2πn/(N-1))。
- 作用: 减小帧起始端和结束端的幅度,使帧内的信号在边界处连续,从而减少频谱泄漏,使得频域特征更清晰。
-
静音切除(端点检测):
- 目的: 识别并去除语音信号开始前和结束后的静音段,以及可能包含的长段停顿(停顿通常也包含环境噪声)。
- 原因:
- 静音段不包含有用的语音信息。
- 去除静音可以降低后续处理的运算量。
- 减少环境噪声对语音特征提取和模型识别的影响。
- 方法: 基于短时能量和过零率来检测语音段和非语音段(静音、噪声)。简单流程:
- 计算每帧的短时能量(信号幅度的平方和)和过零率(信号穿过零轴的次数)。
- 根据背景噪声水平设定能量和过零率的阈值。
- 将能量和过零率都低于各自阈值的帧判定为静音段(起点之前和终点之后的长段静音);将包含有用语音的连续帧区域识别出来。
- 结果: 只保留包含有效语音信号的帧序列,丢弃前后无用的静音段。
总结预处理的核心目标:
- 适配性: 将模拟的物理信号转换为数字形式,便于计算机处理。
- 平稳化: 通过分帧和加窗,将长的、非平稳信号分割成短的、局部平稳的片段。
- 增强高频: 通过预加重,补偿语音高频的固有衰减,使频谱更平坦,有助于提取信息更丰富的特征。
- 抑制噪声与干扰: 通过端点检测和噪声处理,聚焦于有用语音片段,降低无用信息的干扰。
- 为特征提取做准备: 预处理后的帧数据(加窗后)是后续进行短时傅里叶变换、梅尔频率倒谱系数提取等特征提取步骤的输入。
这些预处理步骤共同为语音识别系统提供了一个干净、结构化和信息丰富的输入基础,显著影响最终的识别性能。
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- dtmb信号覆盖城市查询
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- 单片机和嵌入式的区别是什么
- amoled屏幕和oled区别
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机
- 元宇宙概念龙头股一览