语音识别包括哪些
更多
好的,语音识别是一个将人类语音转换成对应文字序列的过程。它涉及多个关键的技术和模块,主要包括以下核心部分(用中文阐述):
-
音频采集与输入:
- 这是第一步。通过麦克风或其它音频输入设备捕捉到说话人的声音(模拟信号)。
- 然后通过模数转换(ADC) 将模拟声音信号转换为数字信号(离散的采样点),得到数字音频数据。
-
预处理:
- 对原始数字音频数据进行加工,为后续分析做准备。
- 降噪: 去除背景噪声、环境杂音、设备干扰等,提高语音的清晰度。
- 语音活动检测: 识别音频流中哪些部分是语音(包含人声),哪些部分是静音或噪声,只将语音部分送入后续处理,减少计算量。
- 端点检测: 在检测到语音段的基础上,更精确地找出语音段中真正开始和结束说话的点(词/句的边界)。
- 预加重: 对高频部分进行增强,补偿语音信号在传输过程中高频衰减(通常比低频快)。
- 分帧: 将连续的语音信号切分成一系列短时片段(帧),每帧通常为20-40毫秒。语音在短时内被认为是平稳的。
- 加窗: 对每帧信号应用窗函数(如汉明窗),减少因分帧造成的边界效应,使得每帧的开始和结束更平滑。
-
特征提取:
- 这是核心步骤。目的是从每个语音帧中提取出能够代表该段语音关键信息、同时压缩数据量的特征向量。
- MFCC: 最为广泛使用的特征,模拟人耳听觉特性,提取声音的频谱包络信息。
- Fbank: 梅尔滤波器组能量系数,是MFCC的前身,有时直接用作特征。
- PLP: 感知线性预测系数,另一种考虑人耳听觉特性的特征。
- 声谱图/梅尔声谱图: 有时直接将声谱图或其梅尔尺度变换后的形式作为特征。
- 目标:这些特征能有效区分不同的音素(基本发音单元)。
-
声学建模:
- 功能: 建立声音单元(通常是音素)与音频特征之间的映射关系模型。模型学习在给定一组特征向量序列时,它是某个特定音素的概率。
- 核心技术: 早期多用隐马尔可夫模型,现在主流是端到端的深度学习模型:
- HMM: 对语音的时序特性建模很好(状态序列),但建模能力有限,通常需要与GMM/DNN结合。
- DNN-HMM: 用深度神经网络替代GMM来估计状态的概率。
- CNN/RNN/LSTM/GRU: 深度学习模型能自动学习更复杂的特征和模式,建模能力更强。
- 端到端模型: 如CTC, RNN-T, Transformer: 这些模型试图直接从音频特征序列映射到文字序列,简化了传统HMM框架中音素、字典、语言模型等多个独立模块的设计。它们通常结合编码器(如CNN/LSTM/Transformer)将音频特征编码为高维表示,再通过解码器(如CTC/RNN-T/Transformer解码器)生成文字序列。
-
语言模型:
- 功能: 学习语言自身的规律和结构。它建模文字序列的概率分布,预测在给定上下文的情况下,下一个词是什么的可能性更高。
- 目标: 结合声学模型的输出,识别出符合人类语言习惯的最可能词序列(句子)。它能够纠正声学识别层面的模糊性(例如,同音字/词)。
- 技术: N-gram模型(统计语言模型,计算词序列的概率),神经网络语言模型(NNLM) (用RNN/LSTM/Transformer学习词在上下文中的概率),在端到端模型中,LM信息有时整合在解码过程中。
-
解码:
- 功能: 这是识别的执行步骤。结合声学模型输出的概率、语言模型提供的语言先验知识以及发音词典提供的发音知识,在整个可能的词序列空间中(搜索空间)搜索出最匹配输入音频特征序列的文字序列。
- 挑战: 搜索空间非常巨大(所有可能的词序列组合)。
- 技术: 维特比解码(针对HMM框架),束搜索(对所有框架都适用,是当前主流),使用发音词典构建一个巨大的状态网络(WFST)。
-
发音词典:
- 功能: 提供了词汇(词)到其基本发音单元(音素序列)的映射关系。它是连接声学模型(建模音素)和语言模型/输出(词序列)的桥梁。
- 作用: 在解码时,告诉系统某个词是由哪些音素组成的,这样才能将声学模型识别的音素序列“拼装”成词。
总结来说:
语音识别系统接收声音输入,进行预处理以增强信号和定位语音段,接着提取特征来捕捉声音的关键信息。声学模型将这些特征映射为可能的发音单元(音素),语言模型运用语言规则推测最可能的词序,而发音词典提供了词与其发音单元(音素)的对应关系。最后,解码器综合所有信息,在庞大的可能性空间中进行高效搜索,输出最终识别的文字结果。现代的端到端模型简化了流程,试图直接建立从声音特征到文本序列的映射。
NRK220X语音识别模块语音芯片语音ic数据资料
NRK2202语音识别模块为广州九芯电子自主研发的一款模块,无须外围元件,直接对接外部,集成了一颗高性能、低成本的离线语音
资料下载
九芯电子语音IC
2021-10-22 10:59:30
基于改进长短时记忆网络的儿童语音情感识别模型
为实现不同儿童情感需求状态下帧级语音特征的有效获取,建立一种基于改进长短时记忆(LSTM)网络的儿童语音情感识别模型。釆用帧级
资料下载
佚名
2021-04-01 11:36:26
【语音识别】你知道什么是离线语音识别和在线语音识别吗?
很多都会问:我测X大讯飞的识别效果很好呀,为什么你们的不能达到这个效果呢?原因很简单,因为你所测试的是X大讯飞在线的语音识别模块,而我们的是离线
2021-04-01 17:11:18
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- dtmb信号覆盖城市查询
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- 单片机和嵌入式的区别是什么
- amoled屏幕和oled区别
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机
- 元宇宙概念龙头股一览