电子说
WT2605-24SS音频解码芯片,实现宠物(玩具)喂食器远程更新语音技术方案解析
概述:本文主要介绍一种远程更新语音技术的实现方式,在一些产品应用上,常常会遇到一些需要不停更换语音的场景(如宠物喂食器、宠物玩具需要经常更换声音,充电桩设备需要更换提示语等等),市面上常用的一些语音芯片大多都无法直接更换语音内容,因此会存在一些无法避免的痛点,有些产品会使用流媒体功能的芯片去播放,但是往往也伴随着巨大的流量消耗以及网络传输延迟,播放卡顿等现象,本文介绍的这一技术可降低对流量的消耗,下面着重介绍如何实现远程更新语音这一技术。
一、系统组成
1、音频芯片参数介绍
该技术主要通过WiFi/4G模块与一款音频解码芯片(WT2605-24SS)实现,音频解码芯片能够实现语音的更新以及存储,WT2605-24SS这款音频解码芯片的参数如下:
1)带有DSP指令的32-bit高性能CPU。
2)16 bit DAC音频解码器,高达96dB的SNR。
3)支持音频均衡器调整。
4)1个SPI。
5)1个IR控制器。
6)1个SD卡主机控制器。
7)1个全速USB2.0 HOST/DEVICE 控制器。
8)一个全双工UART,通讯速率高达1Mbps,主要通过该接口与外部器件进行交互。
1.1、DAC参数介绍:
DAC对音频芯片来说是一个很重要的参数,此款芯片具有16bit 的DAC,也就是DAC的转换精度能够达到2的16次方,精度越高,音频播放的还原度也就越高,当然也有24bit DAC的音频芯片,这类芯片的价格比较高,一般用于高端的消费类电子产品,如HIFI音响等。大部分产品使用16bit的DAC已经足够,性价比较高,当然市面上的音频芯片DAC特性参差不齐,有9bit,11bit,13bit的DAC,这类芯片的解码通常都依靠软件解码的方式去处理,一般音频文件大部分都是16bit,将16bit的音频文件通过软解码的方式转为9bit,11bit或13bit的音频播放,效果可想而知。16bit的DAC直接通过硬件解码16bit的音频才能够达到最好的效果。
对于SNR,一般能够达到90db的信噪比已经有不俗的音质表现,此款IC高达96db的SNR,音质将会表现更加出色。
1.2、音频格式介绍:
此款芯片主要支持mp3格式,当然也支持WAV,flac,ape等音频格式播放,一般主要推荐使用mp3格式音频,这类音频资源较多,文件容量较小,大部分场景都能够满足,比较通用,WAV,flac,ape等都是无损音频格式,文件容量都比较大,不太适用于语音更新的场景。
1.3、语音合成介绍:
对于提示语音,一般可以通过文字合成语音的方式处理,如下:
我们将语音下载下来,用Adobe audition软件打开音频看下音频文件信息:
可以看到合成出来的是16k,16bit的mp3音频文件,对于一些应用场景,语音合成直接在服务器端处理即可,这里不做过多介绍。
2、系统框图介绍:
上图介绍了远程语音更新的具体实现方式,主要由4G/WiFi设备连接到服务器,通过服务器把音频数据下发,经过4G/WiFi设备中转传输到WT2605组件进行保存,文件由WT2605组件进行统一管理,更新完成后可直接控制设备下发指令进行播放。这样实现了语音的更新操作,流量也只消耗在音频数据的传输上,相比流媒体播放的方式减少了流量消耗,播放卡顿等现象。
二、电路设计
1、WT2605与WiFi模块电路
2、上述电路以WiFi模块作为主控,WiFi模块获取服务器端下发的音频数据,再通过UART串口传输到WT2605芯片进行保存,传输完成后直接发送相关指令即可控制播放。电路设计非常简单。
WiFi模块通过指令,控制WT2605解码存储在SPI FLash的音频数据,经过LM4890功放后播放。这里以1W的功放作为演示,调节R6,R7,R8可调整功放的增益,其他功放根据具体的芯片手册进行设计。
三、通讯命令格式介绍
通信协议主要定义主控和 WT2605之间的交互规则,处理器如何将数据推送给WT2605进行相应的处理,WT2605反馈相应的处理结果。通信数据主要以命令帧的方式进行,一个有效的命令帧必须包含:帧头,命令包长,命令包,校验码,帧尾等五部分。
帧头 | 命令包长 | 命令包 | 校验码 | 帧尾 |
0x7E (1字节) |
0xXX (1字节) |
数据 (N字节) |
0xXX (1字节) |
0xEF (1字节) |
帧头由1个固定的十六进制数据表示,帧类型包含下传命令帧(模组接收的命令帧)以及上传命令帧(模组接收数据后反馈的命令帧,即ACK或NAK)。
命令包长表示命令帧除帧头和帧尾外的字节数,即命令包长(1字节)+命令包(N字节)+校验码(1字节)= N+2 字节。
命令包是具体的命令,主要包含:命令+参数。
校验码,为命令包长+命令包的和。
名称 | 长度 | 说明 |
帧头 | 1字节 | 定义为十六进制的“0x7E” |
命令包长 | 1字节 | 命令帧去除帧头和帧尾的字节数,N + 2字节 |
命令包 | N字节 | 命令字 + 参数,详情参考每条命令的说明 |
校验码 | 1字节 | 校验和 = [∑(命令包长+命令包)] & 0xFF |
帧尾 | 1字节 | 定义为十六进制的“0xEF” |
WT2605-24SS芯片典型应用场景:
1)宠物喂食器、宠物玩具;
2)扫地机;
3)充电桩;
4)语音广告机;
5)共享自行车、充电宝等。
唯创知音作为一家专注于语音技术研究的高新技术企业,始终坚持以“服务好工程师”
为目标,以行业语音交互器件标准化为方向,致力于让复杂变简单,提供快捷的语音、智能
物联网应用解决方案。
审核编辑:ymf
全部0条评论
快来发表一下你的评论吧 !