关于声智穿透式远场语音技术介绍

描述

2018年11月1日,腾讯全球合作伙伴大会,以“开放·共生”为主题,在南京开幕。声智科技联合创始人兼首席知识官常乐受邀出席,并与来自全球的科技、文化与商业领域数百位国际大咖和万名行业精英,以及腾讯微信、QQ、腾讯云、腾讯开放平台、腾讯企鹅号、腾讯应用宝、腾讯AI Lab、腾讯车联、腾讯自动驾驶、腾讯微瓴互联、腾讯动漫等业务条线的合作伙伴,共商未来人机互联战略布局与发展之道。

声智科技联合创始人兼首席知识官常乐表示:“未来,我们将置身于人工智能语音交互时代,继续朝着‘语音即搜索,语言即服务’方向演进。物理世界与数字世界的有机融合会进一步加速,日益形成更加智能化的万物互联的人机世界。实现这一美好智能图景的关键在于,实现智能语音交互在更多真实复杂场景中的应用与落地。声智科技,自2017年初成为腾讯人工智能生态合作伙伴以来,依托声智科技自主研发的软硬件一体的远场语音交互技术势能,先后为腾讯打造了腾讯智能音箱、智能车机系统以及全球首款王者荣耀智能机器人等产品,助力腾讯深化在家居、车载和机器人三大领域的人工智能布局与落地。”

全球首创的穿透式远场语音交互解决方案

王者荣耀智能机器人,游戏人物战神吕布为原型,是国内首款人工智能与游戏结合的智能机器人。搭载声智科技为腾讯独家定制的全球首创的穿透式远场语音交互解决方案,采用全球首款人偶型音腔结构设计,由独立的人偶和底座两部分构成,底座装有旋转装置,人偶可以追随玩家用户的声源,并且旋转定位;通过独家的6麦环形倒置麦克风阵列(Inverse Array)设计,内置穿透式波达方向估计(Penetrated DOA),动态声场的回声消除(Vibrated AEC)等独家定制的AI声学算法,成就了具备“听”、“说”感知能力的AI游戏达人——王者荣耀智能机器人!在腾讯全球合作伙伴大会上,王者荣耀智能机器人惊艳亮相展区,为现场观众带来了真实不凡的语音交互体验。

(1)6麦环形倒置麦克风阵列(Inverse Array)

为了战斗时,给游戏玩家身临其境的听觉享受,王者荣耀机器人将扬声器设置于人偶的头部。区别于常规智能语音设备(比如音箱、机顶盒)麦克风阵列置于顶端、扬声器位于底部的“上听下说”且“听说一体”的圆柱或立方体的中空音腔结构,王者荣耀智能机器人的麦克风阵列设计位置只能置于底座,从而形成独特的“下听上说”且“听说分离”的不规则非中空音腔结构。这样的结构设计,也给麦克风阵列的结构设计与声学AI算法适配带来了巨大的难度。

同时,为了让王者荣耀机器人可以随时定位玩家位置,底盘设置了旋转电机装置,电机极为靠近麦克风阵列,当人偶被唤醒后进行大角度旋转时,会产生电机噪音,影响麦克风阵列的准确拾音。

为此,声智科技为腾讯的王者荣耀机器人量身研制了“倒置麦克风阵列(Inverse Array)”技术。基于声智科技定制研发的6麦环形的倒置麦克风阵列,进一步加强麦克风阵列的声音信号处理能力,对抗人偶机器人对于麦克风阵列的遮挡,以及其产生的声反射和声衍射的干扰,有效抑制自噪声和其他外部噪音。在真实的环境中,王者荣耀智能机器人可拾取3-5米远场距离声音,并实现的360度全方位的语音唤醒与识别。

(2)穿透式波达方向估计(Penetrated DOA)

王者荣耀智能机器人独特的设计,使人偶身体处在麦克风阵列正上方,成为直接障碍物,形成了大量因不规则外形的人偶身体产生的声反射和声衍射,导致了多径传播情况的普遍发生,极大影响了王者荣耀智能机器人的准确定位功能。

为了应对这些结构性挑战,进一步加强麦克风阵列的声音信号处理,有效抑制自噪声和其他外部噪音,提高声源测向的准确度,声智科技最新研发了穿透式波达方向估计(Penetrated DOA)技术。即使在噪音干扰大,强混响,强反射面的条件下,王者荣耀智能机器人可实现360度全方位的测向,定位误差在10度以内,随时响应“主公”的呼唤。

(3)动态声场的回声消除(Vibrated AEC)

传统智能音箱等产品的设计扬声器在底部,而王者荣耀智能机器人的扬声器位于头部两侧,一侧指向性的扬声器为全频段发声器件,承担主动发声功能,另一侧为低频共振被动膜片被动发声,以达到较佳的低音效果。而这样的特殊设计,导致位于扬声器垂直下方的环形麦克风阵列单元拾取到的扬声器系统自噪声直达声信号不一致,这无疑增大了语音唤醒与识别的难度。

而且,主动扬声器的声音会干扰麦克风阵列进行声源侧向,进一步影响人偶旋转角度的准确性。同时,旋转装置的电机,极为靠近麦克风阵列,当人偶被唤醒后进行大角度旋转时,产生的电机噪音影响麦克风阵列的拾音。

为此,声智科技研发了最新的动态声场回声消除(Vibrated AEC)技术,可有效提升音乐状态或语音合成(TTS)状态下的唤醒率,以及在5米内的噪音环境下的远场语音唤醒和识别率。搭配声智科技自主知识产权的混响消除、宽场景高灵敏语音唤醒等专属声学AI算法,可在保护主方向语音不失真的前提下,去除环境中的语音等非稳态噪声以及空调等其他平稳噪声的干扰,自适应计算混响的能量,予以抑制,去除由于房间混响造成的语音拖尾,增强语音清晰度,同时解决弱参考信号或者无参考信号等复杂场景中的回声抵消(自噪声抑制)问题,在双工语音交互(Double Talk)的情况下仍然鲁棒。

所以,王者荣耀智能机器人在保证高唤醒率的同时,能有力降低误唤醒率,实现轻松唤醒,随时打断、随时唤醒,无惧环境,想说就说,声随心动,为用户打造完美的远场语音交互的体验。

语音交互技术的创新,只有依托真实的场景,才能真正释放技术的潜能,发挥技术的应用价值,推动人工智能朝着普惠化方向发展,让更多人切实地感受到科技的智能、快捷与便利。声智科技,将继续坚持引领技术服务场景的创新路线,携手生态合作伙伴,为不同的垂直行业打造适配多元场景的远场语音交互系统方案。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分