视频技术
随着国家三网融合政策地推进并落实,电视机作为家庭的娱乐终端,也将带来一些非常积极的变化。例如,像深圳创维在2010年2月就率先研发成功了“聊天电视”,随后海信、TCL等家电厂家也推出相似的产品。
在聊天电视中,麦克风的语音收集就变得非常重要。目前多数聊天电视基本上都是使用了单个麦克风进行收音,可能是有线麦克风,也可能是无线麦克风。采用单个麦克风收音,会带来以下一些问题。
● 用户体验不好
即用户在视频聊天的过程中,需要手握着,或者尽量靠近麦克风来说话,感觉不好;特别是很多家庭成员要一起聊天时,更显得拥挤不堪。
使用有线麦克风,连接线显得很啰嗦,而且影响家庭的装饰;无线麦克风在人移动速度稍快时,都容易出现断音;而且无论采取哪种方式,用了一段时间后,都需要更换电池或者再次充电。
● 成本较高
目前在聊天电视上,采用无线麦克风,载波调制为2.4GHz的方式,已经成为主流,但是这种方式的成本明显偏高。
针对上述两个问题,我们提出使用阵列式麦克风应用在电视上,可以较好解决这两个问题。
阵列式麦克风
阵列式麦克风(Array Microphone),又名麦克风阵列(Microphone Array),即设置两组以上麦克风,并以这些麦克风对音讯进行侦测,所得到的资料交由数字信号处理器(DSP)进行比对,用以还原声音的原貌,并消除背景杂音。阵列式麦克风目前是HD Audio的标准之一。Windows Vista已可以支持阵列式麦克风。
阵列式麦克风通过对拾取的多路语音信号进行分析与处理,使阵列形成的波束方向图主瓣对准目标语音,“零点”指向干扰源以抑制干扰信号,从而尽可能地获取目标语音。其中波束方向及波束主瓣宽度与麦克风的间距、麦克风数目、麦克风的摆放位置、声源入射角及采样频率紧密相关。波束的形成不仅消除了使用单个麦克风时需人工调节麦克风指向性问题,而且可以使输出语音的信噪比大幅度提高,从而无需人工干预亦可获得高质量的语音。
使用传统麦克风说话时,人需要尽量靠近麦克风,对于系统来说,靠近麦克风说话的就是“主音”,系统获得较大的输入。而对于旁边的杂音,或者对话者从扬声器输出的声音相对“主音”来说,幅度都是比较小的,都属于“干扰音”。这样系统可以更准确过滤掉“干扰音”,保留“主音”。在这种传统的麦克风拾音过程中,回声的问题并不突出。而在应用阵列式麦克风时,回声问题则需要重点关注。
回声是指在扬声器播出的声音在被受话方听到的同时,语音信号也通过多种途径被麦克风拾取,重新回输至原说话人处。回声通过的路径各不相同,也就产生了不同的延时回声,包括直接回声和间接回声。直接回声是指扬声器播出的声音未经任何的反射直接进入麦克风,这种回声的延时最短,它同远端说话者的语音能量,扬声器和麦克风间的距离、角度、扬声器的播放音量,麦克风的拾音灵敏度直接相关。而间接回声是指扬声器播出的声音经过不同的路径(如房屋或房屋内任何的物品)一次或多次反射后进入麦克风后所产生回声的集合。房屋内任何物品的移动或改变都会改变回声通道。因此这种回声的特点是多路径和时变的。
在阵列式麦克风应用中,由于人在说话时,不再需要紧贴麦克风,相对而言,人的“主音”对麦克风的影响力可能会降低,即旁边的“干扰音”有可能会干扰“主音”,导致系统无法正确识别哪个才是真正的“主音”。特别是在聊天过程中,对方的声音从扬声器出来,如果声音比较大,会被麦克风重新获取,被对方再一次或者多次听到他本人说过的话。这就是在应用阵列式麦克风所要面对的最大的难题。
简而言之,在应用阵列式麦克风过程中,建议关注以下几个问题:收音范围是否足够宽;收音距离是否足够远;收音的效果是否足够清晰;回声的问题是否得以较好的消除。其中收音范围可以通过更换麦克风的个数以及麦克风的摆放位置来调整;而收音的距离和清晰度等可以通过调整麦克风的灵敏度来配合,本文不作过多的论述。由于对于回声的问题最难处理,本文也试图提出一些个人的想法。
阵列式麦克风在电视上的应用
目前,阵列式麦克风的技术发展已经较为成熟,在人的语音收音距离要求不是很远,而且空间不大,收音范围较窄的情况下,阵列式麦克风已经被大量应用,如笔记本电脑、车载蓝牙设备等等。同样,阵列式麦克风也可以应用在电视机上,使得用户可以无拘无束地与远方的家人、朋友等进行聊天交流(图1)。
当阵列式麦克风在电视机上应用时,需要更加远的收音距离,需要更加宽的收音范围,而这些问题都可以比较容易解决,但是回声的问题则变得更为突出。因为电视机是家庭的娱乐中心,所以电视机的扬声器音量输出也许会比较大,而麦克风大部分都是设计在电视机上,远端说话的声音从扬声器出来,很容易被麦克风重新拾取,再传送到原说话者的那边,严重一些的情况,还可能形成自激。
在电视聊天过程中,如果存在回声,会导致说话的人感觉不舒服;而且语音叠加,导致语音不清晰,所以要尽量消除回声。电视机的使用场合、环境各不相同,比如说扬声器的音量大小差异很大,空间的布置差异也很大等,这些都是与回声直接相关的因素,而且这些因素都为不可控,不可预估的因素。为了解决在电视机上应用阵列式麦克风,可能会产生的回声问题,需要在系统内部设计自适应滤波器。自适应滤波器的基本思想是估计回音路径的特征参数,产生一个模拟的回音路径,得出模拟的回音信号。然后接收信号中减去这个自适应滤波器模拟出来的回音信号,实现回音抵消。
自适应滤波器的架构如图2。图中所示的滤波器的输入是x(n)={x(n),x(x-1),?x(n-N+1)}T,滤波器的权系数是h(n)={h1(n),h2(n),?hN (n)}T,d(n)为期望输出信号,d^(n)为滤波器的实际输出,也称估计值。e(n)为误差,e(n)=d(n)-d^(n)。由误差经过自适应算法,来调整滤波系数,使得滤波实际输出接近期望输出的信号。
在实际的电视中的应用原理框图见图3。图中f(n)代表来自远方的语音信号;r1(n)为f(n)从扬声器出来,经过不同的回声通道所产生的回声集合,并被阵列式麦克风收音;s(n)为本地用户说话的语音信号;r(n)为自适应滤波器对f(n)进行了预处理,估算f(n)信号所产生的回音,其动态估算值为r(n)。那么通过计算,本地用户所传送出去的声音信号应该为u(n)=y(n)-r(n)=s(n)+r1(n)-r(n)。在理想的状态下,如果自适应滤波器所产生的回声估算值r(n)等于实际的回声集合r1(n),即r1(n)-r(n)=0,那么回声将被刚好完全消除。
由于用户的使用环境差异非常大,单独靠自适应滤波器内部的算法,动态修改滤波器的权系数,很难使得输出的r(n)=r1(n)。所以如果自适应滤波器在DSP内部动态修正权系数的同时,把电视机使用的环境因素考虑进去,充分分析回声的通道的各种情况,结合“内外”的因素,来动态修正滤波器的权系数,这样将会使得r(n)更加接近于实际的r1(n),从而更地的消除回声。带有内部校准信号的系统框图如图4。
其中最主要是增加了一个内部校准单元,内部存储有一些特定的音频测试信号Fn。人声所包括的频率主要从300~3400Hz之间,所以内部的测试信号Fn从这个频率区间进行取样即可,如Fn=300Hz、400Hz、500Hz等等,以此类推。其逻辑思路见图5。
举例说明:当用户发现在聊天过程中回声较大,可以人为通过遥控器的按键或者键控板上的按键等方式来发出校准指令。此时,内部校准单元会逐一发出相关的测试信号Fn,测试信号通过主信道,通过功放,从扬声器发出声音,声音再通过不同的回声通道,被阵列式麦克风拾取,回送到内部校准单元。由于测试信号为固有的信号,内部校准单元可以准确对比测试信号和回声之间的差异,考虑与环境相关的回声因素,产生新校正因子γ。
校正因子γ送到自适应滤波器,让自适应滤波器修正滤波器的权系数,这个权系数可以说在一定程度上考虑了外部的环境对回声的影响因素,所以自适应滤波器所产生的r(n)将更加接近r1(n),从而可以更好的消除回声。
小结
可以预见,聊天功能将会成为未来电视机的主要功能之一,而在电视机中应用阵列式麦克风,可以摆脱对传统形式麦克风的依赖,给用户带来较好的体验感受;而加强对回声的消除处理,是阵列式麦克风得以在电视机上广泛应用的保证。
全部0条评论
快来发表一下你的评论吧 !