语音识别包含哪几类
语音识别技术主要可以从不同角度进行分类,以下是最常见和主要的分类方式:
一、按照语音的复杂度和词汇量划分
-
孤立词识别:
- 识别单独说出的、有明确停顿间隔的单词或短句(通常是命令词)。
- 词汇量小(几到几十个词)。
- 实现相对简单,精度较高。
- 应用举例: 简单的语音控制(家电开关、语音拨号)、特定命令词识别。
-
连接词识别:
- 识别按顺序逐个说出的单词序列,词与词之间有短暂停顿。
- 词汇量可达数百到几千。
- 需要处理词间协同发音效应。
- 应用举例: 数字串/字母串识别(电话号码、身份证号朗读)、特定项目清单朗读。
-
连续语音识别:
- 识别自然流畅地说出的、词与词之间无明显停顿的连续语流。
- 词汇量最大(几千到几十万甚至上百万)。
- 最复杂、挑战最大:需处理语速变化、连读、吞音、语调、重音以及丰富的上下文信息。
- 应用举例: 语音转写(会议记录、字幕生成)、语音助手对话(Siri、小爱同学、天猫精灵)、听写软件。
-
大词汇量连续语音识别:
- 特指词汇量极大(通常在几万词以上)的连续语音识别任务。
- 这是当前研究和应用的主流方向,如听写系统和智能助手。
二、按照说话人/说话方式/识别场景划分
-
特定人识别:
- 系统只针对训练它的单个用户的语音进行优化识别,模型对该用户的口音、语调等适应最好。
- 通常需要用户进行发音训练/模型适配。
- 精度高(对特定用户而言)。
- 应用举例: 个人专用的语音听写系统、特定用户的语音控制。
-
非特定人识别:
- 系统设计用于识别任何人的语音(在限定语种下)。
- 训练时使用大量不同说话人的语音数据来建模。
- 普适性强,开箱即用,但对个体用户来说精度通常低于训练好的特定人系统。
- 应用举例: 公共语音助手、客服中心语音导航。
-
说话人自适应识别:
- 这是介于特定人和非特定人之间的一种方法:先有一个强大的非特定人基础模型,用户少量使用时,系统自动快速调整(自适应)以更好地匹配该用户的发音特点。无需专门训练。
- 目标是达到接近特定人识别的精度。
-
朗读式语音识别:
- 用户以清晰、标准的发音进行朗读。
- 相对容易识别。
-
非标准/自发语音识别:
- 识别包含犹豫词(嗯、呃)、重复、更正、方言、口音、俚语等自然、自发性的语音。
- 挑战更大,需更强的鲁棒性建模。
-
噪声环境/远场语音识别:
- 识别在背景噪声(音乐、人声、交通)、混响严重的房间、或说话人与麦克风距离较远(远场麦克风)等挑战性场景下的语音。
- 需要集成噪声抑制、声学场景建模等技术来提高鲁棒性。
- 应用举例: 车载语音、智能音箱、嘈杂环境下的会议录音。
-
说话人分离识别:
- 在多人同时说话的场景下,先分离出各个说话人的声音,再分别进行识别。
- 是多说话人场景识别的核心难题之一。
总结:
这两大类(复杂度和场景)的维度常常是交叉的。例如,一个现代的智能音箱(非特定人、远场)需要的是具有噪声鲁棒性的大词汇量连续语音识别能力(非特定人/自适应模式),同时可能还需要处理多说话人重叠问题(说话人分离)。
这些分类体现了语音识别技术需要应对的多样性挑战,不同应用场景会选择或侧重不同的技术组合。
机器学习可以分为哪几类?机器学习技术有哪些?
机器学习可以分为哪几类?机器学习技术有哪些 机器学习(Machine Learning,ML)是一种通过自动化自我学习所增强的能力,从数据中获取知识的方法。可以说,机器学习是在人工智能的支持下
2023-08-17 16:11:36
NRK220X语音识别模块语音芯片语音ic数据资料
NRK2202语音识别模块为广州九芯电子自主研发的一款模块,无须外围元件,直接对接外部,集成了一颗高性能、低成本的离线语音
资料下载
九芯电子语音IC
2021-10-22 10:59:30
结合MFCC和特征的语音情感识别方法
在语音情感识别中提取梅尔频率倒谱系数(MFC℃)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的
资料下载
佚名
2021-06-11 11:02:16
基于改进长短时记忆网络的儿童语音情感识别模型
为实现不同儿童情感需求状态下帧级语音特征的有效获取,建立一种基于改进长短时记忆(LSTM)网络的儿童语音情感识别模型。釆用帧级
资料下载
佚名
2021-04-01 11:36:26
智能锁主要分为哪几类?有什么区别
。智能锁在家庭防盗领域具有重大贡献,你家的门是否也安装了智能锁?你想知道智能锁分为哪几类?有什么区别?今天创佳智能锁的小编给大家普及一下今年建博会上展出的智能锁的类别。
资料下载
创佳智能锁
2019-07-18 08:00:00
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- dtmb信号覆盖城市查询
- EDA是什么?有什么作用?
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- amoled屏幕和oled区别
- 单片机和嵌入式的区别是什么
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机
- 元宇宙概念龙头股一览