再度炒热的3D音频,次世代视听体验还是徒有虚名

电子说

1.2w人已加入

描述

电子发烧友报道(文/周凯扬)伴随着虚拟现实和TWS的发展,人们对于声音的要求也在逐渐提高,普通的5.1与7.1环绕立体声作为多扬声器方案,已经难以满足用户在AR/VR、游戏和娱乐领域对“真实”的追求。演唱会、球赛和大会上的临场感才是大家渴望的听觉体验,于是3D音频这一技术又再度起死回生。
 
3D音频作为人类对声学领域的又一大探究,其实可以追溯到1881年法国工程师克莱门特·阿代尔发明的剧场电话,该装置将不同声道的信号通过两个听筒传输出来,营造剧场内的立体声效。1972年,德国诺音曼公司推出了第一个商用的立体声录制系统,并被广泛应用于录音棚,但要想营造全方位的3D音频,这对当时的录音设备成本和播放设备成本来说都是一大挑战。而AR与VR等应用到来,对声音的定位需求再度拔高,又让这一技术重焕生机。
 
谈到3D音频,就不得不谈到人对声音位置的识别原理,人类大脑用三大方面来判别声音位置:耳朵的形状,每只耳朵接收声音的时间差,以及每只耳朵间的升压。这就引出了头部相关传输函数(HRTF),一种音效定位算法。但是每个人的头型、耳型都是独一无二的,如果不能计算出正确的HRTF,那么听者会对声音的方位感到迷惑。
 
苹果

Airpods Pro空间音频 / 苹果

 
苹果在今年的Airpods Pro固件更新中加入了空间音频功能,也是苹果对3D音频的首次尝试。其实苹果早就提供了用HRTF生成空间音频的API,作为ARKit开发工具的一部分,而借助Airpods Pro中的加速度计和陀螺仪追踪用户的头部运动,再通过定向音频过滤器和调整每只耳朵接受的音频频率,有效计算出音频该如何映射,从而创造出“空间音频”的听感。
 
不仅如此,苹果的空间音频将调用iPhone或iPad中的加速度计与陀螺仪,实时追踪播放设备的位置,即便是转头或远离,音源依然固定在播放设备的位置上。虽然空间音频也支持5.1、7.1和杜比全景声等立体声格式,但是考虑到对播放内容的要求,只有特定的支持应用才能充分利用这一功能。
 
索尼
 
索尼在近期推出的PS5中同样新增了3D音频功能,利用全新的Tempest引擎实现。首席设计师Mark Cerny提到,上一代PS4提供的音频体验很差,只能调用AMD Jaguar内核中一小部分来提供7.1环绕声,而PS3时代则是直接使用协处理器来实现。因此索尼随后推出的PSVR中加入了定制音频单元,支持50个优质音源,而此次PS5的Tempest引擎更是支持上百个更高质量的音源。
 
Tempest其实是一个重新加工的AMD GPU计算单元,去掉了缓存,仅仅依靠直接存储器访问(DMA)的数据传输,从而充分发挥这一计算单元的矢量处理能力,正如PS3的协处理器一样。最终实现的计算单元SIMD性能和带宽已经等同于PS4上的8个Jaguar内核,如果按照与PSVR相同的算法标准来衡量的话,足以支持5000个同质量音源,但PS5更倾向于使用更复杂的算法实现高质量音源,况且也不需要用到如此多的音源。


不同的HRTF对比 / 索尼

而且索尼已经为上百个测试人群进行了HRTF建模,并提供5种预设方案,与此同时,用户还可以通过应用给索尼发送双耳的正面照片,索尼将利用神经网络从HRTF库中为用户选取参数最接近的一套配置。这种参数获取方式其实已经在索尼的另一大3D音频服务360 Reality Audio中实现了,但该服务主要面向音乐应用。索尼还提到未来也许会开发一个音频游戏,通过得分来微调HRTF,为用户提供最契合的3D音频体验。
 
虽然不同厂商对HRTF的获取方式不同,但要想实现3D音频可没这么简单,同样必不可少的还有DSP。
 
高通
 
Waves旗下的Nx实现了一套专门用于耳机和耳塞的3D音频方案,利用心理声学来实现扬声器级别的3D听感体验。Nx将利用单个IMU来执行头部追踪,并借助手机设备的IMU来实现一套双传感器算法,根据移动或运动下的参考数据确保声场位置。
 

Hexagon 698 DSP / 高通

 
但这样的实现方式会消耗移动设备一定的算力,从而对电池使用时间造成影响。所以Waves与高通合作,通过高通的Hexagon DSP和硬件优化,Waves Nx能够有效率地运行在搭载骁龙芯片的手机上,实现沉浸式的音频体验而不会牺牲电池寿命。就拿骁龙865中的Hexagon 698 DSP来说,这一数字信号处理器只有指甲大小,却内置4核张量加速器,可以做到每秒15万亿次的算力。
 
CEVA
 
美国厂商VisiSonics也提供了自己的3D音频解决方案RealSpace 3D Audio,这是一套基于物理实现3D音频算法的空间音频软件,并支持房间反射、物体遮挡和HRTF的模型创建。此外,RealSpace 3D Audio既可以在设备app或DSP硬件上实现,也可以采用混合处理的方式。

RS3D在CEVA DSP上的实现 / CEVA

在DSP端,VisiSonics与著名DSP厂商CEVA合作,借助CEVA-X2或CEVA-BX1/BX2这三款DSP,RealSpace 3D Audio可以将5.1、7.1、基于物体的音频等立体音频空间化,并根据CEVA的六轴传感器FSP200获取头部跟踪数据。

CEVA-X2原理图 / CEVA

 
CEVA-X2是一款基于16nm工艺的10级流水线DSP,工作频率在2Ghz,达到4.5CoreMark/MHz的得分。该处理器包含两个标量处理单元,支持8/16/32/64位数据类型的算法和逻辑运算。正是因为拥有这样的性能,这款DSP才用作高性能语音处理,比如多麦克风语音处理、3D音频和高质量音频播放等。
 
小结
 
尽管如今市面上已经涌现了不少3D音频的解决方案,但其实现方式与兼容性都有所差距。单拿HRTF的获取来说,借助设备端的传感器是最简单的方式之一,但是较差,而通过app远程拍摄耳型与头型的方式则需要庞大的数据库支撑,因此往往仅对小数量的人群进行严格的HRTF测量,再借助计算机视觉和神经网络来匹配。除此之外,设备端DSP的不同有时可能会对同一3D音频方案的实现造成阻碍。
 
音源的录制方式同样为3D音频的普及带来了障碍,比如有的音频录制需要先交纳一定的授权费用才能使用,有的3D音频内容则只有在特定的设备上才可以进行播放。不仅如此,蓝牙设备的音频编解码格式(APTX、LHDC)、音频文件的格式(MPEG-H)同样会带来不同的3D音频效果。如此看来,3D音频确实可以带来非凡的听感体验,但目前来看效果不一而且多数厂商各自为战,要想占据主流市场,仍面临着不小的挑战。

本文由电子发烧友网原创,未经授权禁止转载。如需转载,请添加微信号elecfans999。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分