语音控制模块工作原理

电子说

1.4w人已加入

描述

  语音控制芯片或者说模块的应用前景越来越广泛,无论是设计方案还是厂家生产的产品在越来越多越来越频繁的使用语音控制芯片。当然行业内更多的是称呼为语音识别芯片,因为语音控制的前提是要先识别用户的声音,才能够发出正确的指令。

  语音芯片控制模块是实现 “语音指令 - 设备响应” 的核心组件,其工作原理可拆解为信号采集、处理、识别及指令执行的完整链路,下面将以WTK69000为例给大家分享一下整个流程的工作原理。

语音控制

  一、语音信号采集与预处理

  ①.信号采集:通过内置麦克风或外接麦克风收集用户的语音信号。芯片以 16kHz 采样率对语音信号进行采样,将其转化为数字信号。

  ②.预处理:包括预加重、分帧、加窗等操作。预加重用于提升高频信号的能量,分帧是将连续的语音信号分成若干个短帧,加窗则是对每帧信号进行加权处理,以减少频谱泄漏。此外,芯片还采用了神经网络降噪系统、AI 识别降噪等技术,抑制稳态噪声和动态噪声,提高信号质量。

  ③语音特征提取经过预处理的语音信号,会被提取特征向量。WTK6900 系列芯片通常提取包含 12 维 MFCC(梅尔频率倒谱系数)+ 能量 + 差分参数的特征向量,这些特征能够较好地表征语音的特性,为后续的语音识别提供基础。

语音控制

  二、语音识别

  采用混合识别架构:应用改进型 DTW(动态时间规整)算法,计算测试模板与参考模板之间的距离,衡量语音的相似度。同时,该系列部分芯片采用深度神经网络算法进行语音识别,具有识别精准、误判率低等优势。

  决策机制:将最近邻得分与阈值 θ1 进行比较,若得分大于阈值,则触发对应指令;否则进入拒识状态。通过这种方式来确定用户所说的语音是否与预设的指令词匹配,从而实现语音识别功能。

  三、指令输出与设备控制

  WTK6900 系列芯片识别出语音指令后,通过 UART 等通信接口将命令推送到设备原有的上位机,上位机接收到指令后,控制相关设备执行相应的动作,如智能玩具中的舵机转动、电机旋转,投影仪的功能切换,智能晾衣架的升降等。

  此外,WTK6900 系列芯片还支持多模态学习方式,用户可通过物理按键、串口指令、语音命令或专用 APP 启动学习流程,实现命令词的自学习功能,可存储 100 多个自定义语音模板,还支持方言自适应学习,能灵活适应不同用户的语音指令需求。

  四、云端交互

  云端大模型(如 GPT、BERT)接收 WTK6900 上传的语音数据或特征向量,进行多轮对话、意图识别、知识推理等复杂处理。例如:用户说 “帮我查一下明天深圳的天气”,WTK6900 本地识别为 “天气查询” 指令码,云端大模型解析出 “深圳”“明天” 等语义要素,调用天气 API 获取结果。

  方言或模糊指令(如 “搞冻 D”)通过云端大数据训练的模型进行精准识别。

  通信机制:WTK支持UART串口/SPI接口/蓝牙BLE/wifi模组扩展。

  场景案例:

  ①本地处理:WTK6900H-A 芯片通过 UART 接收用户语音指令 “调至 26 度”,本地识别为 “温度调节” 指令码(0x05),并通过 I²C 接口直接控制空调模块。

  ②云端扩展:若用户指令为 “根据空气质量自动调节”,WTK6900 将 “自动模式” 指令码上传至云端,云端大模型结合实时空气质量数据生成最优温度参数,返回后驱动空调执行。

  以上就是“语音控制模块工作原理”的全部内容,希望可以帮助到大家。

审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分