MFCC
好的,我们来用中文解释一下 MFCC (梅尔频率倒谱系数)。
MFCC 是什么?
简单来说,MFCC 是一种从音频信号(尤其是语音信号)中提取出来的一组特征参数。 它代表了声音的“听觉特性”,是人耳感知声音方式的一种数学模拟。
为什么叫这个名字?
这个名字拆解开来就是其关键步骤的体现:
- 梅尔频率 (Mel Frequency): 梅尔是一种根据人耳听觉特性(对低频更敏感,对高频区分度下降)而设计的非线性频率刻度。它将物理频率转换为更贴近人主观听觉感知的刻度。
- 倒谱系数 (Cepstral Coefficients): 倒谱是一种分析技术。声音可以看作是声源(如声带振动)通过声道(口腔、鼻腔等)的滤波器后产生的。倒谱分析的目标是尝试分离这两个部分。倒谱系数就代表了“倒谱域”中的数值(可以简化理解为对频谱包络取对数后的傅里叶变换结果)。
MFCC 是如何计算出来的?
计算 MFCC 通常包含以下关键步骤:
-
预处理:
- 分帧: 把连续的语音信号切成短时的小片段(帧),通常每帧 20-40 毫秒。
- 加窗: 对每一帧应用窗函数(如汉明窗),减少频谱泄露。
-
傅里叶变换:
- 对加窗后的每一帧信号进行快速傅里叶变换 (FFT),得到频谱(信号在不同频率上的能量分布)。
-
计算功率谱:
- 对 FFT 结果的幅度平方,得到功率谱(更准确地表示能量分布)。
-
梅尔滤波器组滤波:
- 将功率谱映射到梅尔频率刻度。
- 在梅尔刻度上定义一组三角带通滤波器(梅尔滤波器组),低频部分窄而密集,高频部分宽而稀疏,模拟人耳的频响特性。
- 让功率谱通过这些滤波器,求和每个滤波器覆盖频带的能量值,得到一组梅尔滤波器组能量。
-
取对数:
- 对上面得到的每个梅尔滤波器能量取自然对数 (log)。这与声音强度的人耳主观感知(分贝是log尺度)及倒谱理论相关。
-
离散余弦变换:
- 对取对数后的梅尔滤波器组能量序列进行离散余弦变换 (DCT)。
- DCT 的作用类似于傅里叶变换,但它擅长压缩信息。它将信号分解为:
- 较低的系数:代表缓慢变化的、宏观的频谱形状特征(即声道的谱包络)。
- 较高的系数:代表快速变化的、细微的频谱细节(即激励源的频谱结构)。
- MFCC 系数: 通常只取 DCT 结果中前 12-13 个系数。这些低阶系数捕捉了声道形状的关键信息(频谱包络),这正是识别语音内容(音素、单词)和说话人特征最需要的。高阶系数包含的细节(如基频)对识别通常贡献较小且更容易受噪声影响。
-
可选:增加动态特征:
- 为了捕捉特征随时间的变化(这对识别很重要),常常在基本 MFCC 系数外,加上它们的一阶差分(Delta, Δ, 表示变化速度/斜率)和二阶差分 (Delta-Delta, ΔΔ, 表示变化的加速度/曲率)。这样一组特征通常记为 MFCC Δ ΔΔ。
MFCC 有什么用?
MFCC 的核心价值在于它有效地模拟了人耳的听觉特性,并分离了声道信息和激励源信息,压缩了特征维度,使得后续的语音处理任务更高效和鲁棒。它是以下领域的基石特征:
- 语音识别: 识别语音内容(说什么词/句子)。
- 说话人识别/验证: 判断说话人是谁或确认是否是本人。
- 语音合成: 生成听起来自然的语音。
- 音乐信息检索: 分类音乐流派、识别乐器、推荐音乐。
- 语音情感识别: 分析说话人的情绪状态。
- 声学事件检测: 检测特定声音事件(如枪声、玻璃破碎)。
总结:
MFCC 就是将声音信号经过一系列的数学处理步骤(分帧、FFT、梅尔滤波、取对数、DCT),最终提取出能代表该段声音听觉特性的、维度较低的系数(通常12-13个)。这些系数对声音的频谱包络(声道形状)进行了有效的建模,非常适合用来描述和区分不同的语音内容、说话人身份以及音乐特征。它是语音和音频信号处理领域使用最广泛、最经典的特征表示方法之一。
软硬件协同技术分享 - 任务划分 + 自定义指令集
开发技术。分文将分享介绍硬件加速器与软件结合的协同开发方式 软硬件任务划分 我们的硬件设计涉及到MFCC模块。直接交由CPU的一次指令的五级流水线处理在麦克风数据取入上的资源耗费可以说是
用esp32-LyraT开发板测试播放MP3,asr例程编译不通过的原因?
/esp-sr/liblibwakenet.a(mfcc_runner_straight.o): in function `run_logfbank\': /home/sunxiangyu/esp
基于MFCC与改进ACF的汽车声音识别算法研究_蒋翠清
基于MFCC与改进ACF的汽车声音识别算法研究_蒋翠清(led应急电源生产厂家)-基于MFCC与改进ACF的汽车声音识别算法研究_蒋翠清这是一份非常不错的资料,欢迎下载,希望对您有帮助!
资料下载
385288
2021-07-26 13:01:54
结合MFCC和特征的语音情感识别方法
在语音情感识别中提取梅尔频率倒谱系数(MFC℃)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图利
资料下载
佚名
2021-06-11 11:02:16
基于MFCC的多维特征语音信号端点检测算法
为提髙复杂噪声环境下语音信号端点检测的准确率,提岀一种基于梅尔频谱倒谱系数(MFCC)距离的多维特征语音信号端点检测算法。通过计算语音信号的MrcC距离,结合短时能量和短时过零率对特征距离进行修正
资料下载
佚名
2021-06-03 16:36:31
融合神经网瓶颈特征与MFCC特征的符合特征构造方法
针对梅尔频率倒谱系数(MrCC)语音特征不能有效反映连续帧之间有效信息的问题,基于深度神经网络相关性和紧凑性特征,提岀一种融合神经网瓶颈特征与MFCC特征的复合特征构造方法,提高语音的表征能力和建模
资料下载
佚名
2021-03-17 11:31:56
用esp32-LyraT开放板测试播放MP3,asr例程编译不通过是怎么回事?
/esp-sr/lib\libwakenet.a(mfcc_runner_straight.o): in function `run_logfbank':/home/sunxiangyu/esp
ESP32-LyraT speech_recognition \ asr例程报错怎么解决?
\libwakenet.a(mfcc_runner_straight.o): in function`run':/home/sunxiangyu/esp/esp_sr_lib/components
EDP-S-30B-H-MFCC
EDP-S-30B-H-MFCC - ELED Pigtailed Module - Source Photonics, Inc.
EDP-S-30B-H-MFCC-GR
EDP-S-30B-H-MFCC-GR - ELED Pigtailed Module - Source Photonics, Inc.
如何在D1哪吒开发板商适配或者移植阿里小程序呢
/vendor/detail/download?spm=a2cl5.14293897.0.0.d1495db1mfcC26&id=3913671825380876288&vendorId=3878439890589003776&module=1#sticky开发文
【社区简报】电子发烧友社区一周热门精选内容
】基于MFCC的GMM语音识别matlab源码MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成
【语音识别】基于MFCC的GMM语音识别matlab源码
一、简介MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- dtmb信号覆盖城市查询
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- 单片机和嵌入式的区别是什么
- amoled屏幕和oled区别
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机
- 元宇宙概念龙头股一览