智能音箱之音频通路质量

音频电路

143人已加入

描述

  智能音箱之音频通路质量

  音箱行业有着悠久的历史,但是在过去十多年里,传统的音箱行业面临着极大的市场困境,例如蓝牙音箱刚出现各个厂商便直接杀成了一片红海。而2015年随着智能音箱的涌现,特别是亚马逊的Echo、京东的叮咚、阿里的小飞,不仅对外展现出了智能音箱行业百花齐放的局面,也使沉闷的音箱市场看到了突破性发展的希望。但是,随着这些巨头们的集体涌入,这也让在智能音箱行业摸爬滚打的创业者倍感艰难。

  音箱特别是中高端音箱,本来就是强调品牌且技术门槛较高的领域。而智能音箱将声学设计、无线技术、语音识别、远场拾音、语义分析等众多技术融合在一起,不仅技术更为复杂,而且更加依赖音乐内容平台的支持,这些诸多因素都是创业者需要直面解决的难题。当然,技术还是其中的根本

  当将语音识别算法接入到设备时,务必要保证设备的音频通路具有足够的质量。因此对设备进行音频测试,以评估能够影响语音识别性能的音频前端的音频参数。如下要点对语音识别至关重要:

  自然声音

  合适的增益

  良好的信噪比

  一致的响应,信号不能包括如下信息: 自动增益控制 AGC 启动响应 直流偏置过大

  适当的频响 (高低滚降,理想平滑,没有混跌)

  二、测试设备

  带有录音软件的被测试设备

  音频测试仪器:CD机,均衡器,音箱,人工嘴和声压计

  带分析工具的PC机(CoolEditor、Audition、Audacity和Wavesurfer等)

  三、音频文件

  正常音频文件:用于主观判断音频质量和增益设置以及信噪比;

  大增益文件:用于判定削波时的增益设置;

  1K-sine增益Sweep文件0~105dB:用于评估削波,决定最大数值和判定AGC存在与否;

  0~8K/16K扫频文件:用于测试设备的频响和混跌;

  四、测试项目

  1. 主观听音

  用质量好的耳机去听设备的音质,从而发现一些非正常声音;比如:杂音、谐波和共振等;

  音频路径上过多的信号处理可能导致声音畸变为人造声,不符合正常自然声音,会对软件识别造成很大困难。

  2. 增益评估

  设备在各种使用场景下,务必保持增益的设置不要使信号削波;削波会严重降低识别性能,必须禁止。

  95dB的声音应该刚好填满16bit音程;

  3. 信噪比

  静默值作为底噪,声音波形的中部作为信号;尤其注意某些记录将具有数据实际值为零的引导/拖尾部分,不要使用这部分作为静默测量;麦克风单体的信噪比,除了本身规格书之外,在实际产品中收到电路噪声影响很大,尤其注意模拟麦克风bias电源。

  信号比:S/N>30对于识别是良好的比值,大于20也是可行的;如果小于20的话,则说明音频路径上太吵了导致很难识别成功。

  4. 自动增益控制AGC

  AGC的存在,当音频信号的幅度增大时,它通常表现为增益逐步减小。它会影响识别效果,所以得关闭此功能,类似的有自动电平控制寄存器ALC等。

  同时部分功放带有动态调节音量的功能,务必关闭此项功能,否则严重影响AEC效果;所有的动态调节都务必在AEC采样点之前进行,具体如下图示意:

 

语音识别

  5. 启动瞬态Startup transients

  音频系统经常在录音命令下达后,需要一段时间才能真正启动操作,这导致了启动瞬态;如果这主要包括低频的话,将不会对识别造成影响,因为识别器中有低通滤波器。

  然而试图消除瞬态的话,将信号钳位在零电平上超过几十毫秒的话,会严重影响识别。在这种情况下,最好完全跳过音频,而不是将此错误信息发送给识别器。

 

语音识别

  上图中红色框中125ms的启动瞬态,应该跳过。

  6. 直流偏置过大DC offset

  直流偏置可以看作是静音信号在零信号线上高于或者低于的信号;

  如果偏移量为满刻度限制的百分之几或者更少,是没有问题的;

  但是如果超过10%则需要纠正,很大的偏移将导致不对称削波。

  7. 频响曲线Response curve

  为了隔绝麦克分录音到其他杂音,麦克风需要与喇叭足够近,大致2.5cm处录音。

  检查FFT大小设置为2048个采样点,采样窗口设置为Blackmann Harris;

  理想的频率响应曲线在顶端220Hz和3200~3900Hz之间的几分贝内是平坦的,差值一般控制在10dB以内是可以接受的(16K采样率的为6400Hz~7400Hz)如下图所示:

  

语音识别

  频响曲线是个慢慢的渐变过程,如果个别区域出现急剧变化,应该重点关注并研究,音频可能存在其他问题。

  8. 混叠Aliasing

  当超过采样速率的一半(奈奎斯特极限)的信号被允许进入模数转换器(ADC)时,出现混叠现象。如下为ES7210调试初期出现的混叠现象:

  

语音识别

  混叠是影响识别的一个重大因素,必须消除混叠;

  故ADC需要有抗混叠处理,例如抗混叠滤波器等。

  9. 谐波失真Harmonic distortion

  当录音系统增加输入信号的泛音时,会出现谐波失真;

  AEC对信号失真是非常敏感的,音频通路的整体谐波失真需要控制在5%以内,故从麦克风到功放到扬声器和音腔,均需要严格控制;除了单体品质之外,尤其注意功放和扬声器的功率匹配、阻抗匹配和频率匹配;

  如下图为1K-sine信号的频谱图,有奇次谐波、偶次谐波:

  

语音识别

  如下图为8K-sweep信号的频谱图,有奇次谐波、偶次谐波:

 

  谐波失真越小越好,一般要求最好是小于3%。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分