语音识别系统包括哪些基本单元
更多
语音识别系统是一个复杂的系统,通常包含以下基本功能单元,它们协同工作,将声音信号转换成对应的文字:
-
信号输入与采集:
- 麦克风: 捕获声音信号,将其转换为模拟电信号。
- 模数转换: 将麦克风产生的模拟电信号离散化成数字信号(采样和量化),便于计算机处理。
-
预处理:
- 预加重: 提升高频部分能量,补偿发音中高频信息衰减。
- 分帧: 将连续的语音信号按固定时长(如20-30ms)划分成小的片段(帧)。帧之间通常有重叠(如10-15ms)。
- 加窗: 对每一帧语音乘以一个窗函数(如汉明窗),减少帧两端截断效应带来的频谱泄漏。
- 端点检测/语音活动检测: 区分语音段与非语音段(如静音或噪声),只对有效语音段进行后续处理。
- 降噪: 通过各种算法(如谱减法、维纳滤波、深度学习方法)减少背景噪声的干扰。
-
特征提取:
- 这是关键步骤,目的是将每一帧的语音信号转换成一个低维、稳定、能表征语音内容的特征向量。常用特征包括:
- 线性预测系数/线谱对: 基于声道模型的特征。
- 感知线性预测: 在LPC基础上结合人耳听觉特性。
- 梅尔频率倒谱系数: 最主流的特征之一。它模拟人耳对不同频率感知的非线性特性(梅尔刻度),经过一系列变换(FFT,梅尔滤波器组能量,取对数,DCT)得到代表声道形状的倒谱信息。
- 滤波器组系数/梅尔滤波器组能量: 是MFCC的前一步骤结果,有时也直接用作特征。
- 动态特征: 通常还会在静态特征基础上加入表征动态变化的Δ系数(一阶差分)和ΔΔ系数(二阶差分)。
- 这是关键步骤,目的是将每一帧的语音信号转换成一个低维、稳定、能表征语音内容的特征向量。常用特征包括:
-
核心识别引擎(声学模型 + 语言模型 + 解码器): 这是系统的核心。
- 声学模型:
- 建模声音单元(音素、音节、字等)与特征向量之间的概率关系。
- 传统方法: 基于隐马尔可夫模型(通常搭配高斯混合模型,即GMM-HMM)。HMM建模声音单元的时序动态特性,GMM建模特征向量在HMM状态下的概率分布。
- 现代主流方法: 深度学习声学模型。常用模型包括:
- Deep Neural Network-HMM (DNN-HMM): DNN替换GMM计算HMM状态的观测概率。
- 卷积神经网络: 有效捕捉频谱图的局部特征。
- 循环神经网络/长短期记忆网络/门控循环单元: 更适合建模语音的长时上下文依赖。
- 连接时序分类: 允许输入输出无需严格对齐。
- 注意力模型和端到端模型: 将声学模型、语言模型和发音词典的学习整合到一个神经网络中(如Transformer-T、RNN-T等),直接输出字或词序列,简化系统流程。
- 语言模型:
- 建模词序列出现的概率分布(如“我喝水”的可能性远大于“喝我水水”)。
- N-Gram: 基于前N-1个词预测当前词的概率,简单高效。
- 神经网络语言模型: 使用RNN、LSTM、Transformer等深度网络建模词序列的上下文关系和概率。
- 发音词典: (在传统系统和部分端到端系统中)
- 定义词是如何由基本声音单元(音素)构成的。将声学模型建模的声音单元(音素)与语言模型建模的词连接起来。
- 解码器:
- 在识别时,搜索所有可能的词序列,找出最匹配输入语音特征序列且符合语言模型约束的词序列。
- 核心是一个高效的搜索算法。常见的解码策略包括:
- 动态时间规整: 主要用于孤立词识别。
- Viterbi算法: 在HMM框架下搜索全局最优路径。
- 加权有限状态转换器: 将声学模型、发音词典、语言模型等组合成一个大的搜索网络,然后在该网络上搜索最优路径。
- 束搜索: 在解码的每一步只保留概率最高的若干条路径(束宽),大大减少计算量。
- 贪心搜索/集束搜索: 常用于端到端模型解码。
- 声学模型:
-
后处理与输出:
- 输出格式化: 将解码得到的最优词序列进行整理,添加必要的标点符号(现代系统通常将此集成到端到端模型中)。
- 置信度评估: 对识别结果进行打分,表示识别的可信度。
- 最终输出: 将识别得到的文字序列输出给用户或下游应用。
总结: 一个典型的语音识别系统的工作流程是:声音被麦克风采集并转换为数字信号 -> 经过预处理去除噪声并切分有效段 -> 提取能表征语音内容的特征向量 -> 解码器利用声学模型、语言模型和发音词典(或端到端模型)在所有可能的词序列中搜索最佳匹配序列 -> 最终输出识别的文字结果。这些单元共同构成了语音识别系统的基本框架。
嵌入式语音识别系统中的电路设计是如何的
现在社会发展的这么快,什么高科技都涌现出来,什么智能机器人啦,智能手机等,有很多在这里就不一一列举了,在这里我们要说的就是语音识别系统了,现在嵌入式产品如此的多,就像一些智能空调啦,我们可以对着他说
2021-12-20 07:52:03
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- dtmb信号覆盖城市查询
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- amoled屏幕和oled区别
- 单片机和嵌入式的区别是什么
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机
- 元宇宙概念龙头股一览