再度炒热的3D音频，次世代视听体验还是徒有虚名

21克888 2020-11-25 2992

电子说

1.3w人已加入

描述

电子发烧友报道（文/周凯扬）伴随着虚拟现实和TWS的发展，人们对于声音的要求也在逐渐提高，普通的5.1与7.1环绕立体声作为多扬声器方案，已经难以满足用户在AR/VR、游戏和娱乐领域对“真实”的追求。演唱会、球赛和大会上的临场感才是大家渴望的听觉体验，于是3D音频这一技术又再度起死回生。

3D音频作为人类对声学领域的又一大探究，其实可以追溯到1881年法国工程师克莱门特·阿代尔发明的剧场电话，该装置将不同声道的信号通过两个听筒传输出来，营造剧场内的立体声效。1972年，德国诺音曼公司推出了第一个商用的立体声录制系统，并被广泛应用于录音棚，但要想营造全方位的3D音频，这对当时的录音设备成本和播放设备成本来说都是一大挑战。而AR与VR等应用到来，对声音的定位需求再度拔高，又让这一技术重焕生机。

谈到3D音频，就不得不谈到人对声音位置的识别原理，人类大脑用三大方面来判别声音位置：耳朵的形状，每只耳朵接收声音的时间差，以及每只耳朵间的升压。这就引出了头部相关传输函数（HRTF），一种音效定位算法。但是每个人的头型、耳型都是独一无二的，如果不能计算出正确的HRTF，那么听者会对声音的方位感到迷惑。

苹果

Airpods Pro空间音频 / 苹果

苹果在今年的Airpods Pro固件更新中加入了空间音频功能，也是苹果对3D音频的首次尝试。其实苹果早就提供了用HRTF生成空间音频的API，作为ARKit开发工具的一部分，而借助Airpods Pro中的加速度计和陀螺仪追踪用户的头部运动，再通过定向音频过滤器和调整每只耳朵接受的音频频率，有效计算出音频该如何映射，从而创造出“空间音频”的听感。

不仅如此，苹果的空间音频将调用iPhone或iPad中的加速度计与陀螺仪，实时追踪播放设备的位置，即便是转头或远离，音源依然固定在播放设备的位置上。虽然空间音频也支持5.1、7.1和杜比全景声等立体声格式，但是考虑到对播放内容的要求，只有特定的支持应用才能充分利用这一功能。

索尼

索尼在近期推出的PS5中同样新增了3D音频功能，利用全新的Tempest引擎实现。首席设计师Mark Cerny提到，上一代PS4提供的音频体验很差，只能调用AMD Jaguar内核中一小部分来提供7.1环绕声，而PS3时代则是直接使用协处理器来实现。因此索尼随后推出的PSVR中加入了定制音频单元，支持50个优质音源，而此次PS5的Tempest引擎更是支持上百个更高质量的音源。

Tempest其实是一个重新加工的AMD GPU计算单元，去掉了缓存，仅仅依靠直接存储器访问（DMA）的数据传输，从而充分发挥这一计算单元的矢量处理能力，正如PS3的协处理器一样。最终实现的计算单元SIMD性能和带宽已经等同于PS4上的8个Jaguar内核，如果按照与PSVR相同的算法标准来衡量的话，足以支持5000个同质量音源，但PS5更倾向于使用更复杂的算法实现高质量音源，况且也不需要用到如此多的音源。

不同的HRTF对比 / 索尼

而且索尼已经为上百个测试人群进行了HRTF建模，并提供5种预设方案，与此同时，用户还可以通过应用给索尼发送双耳的正面照片，索尼将利用神经网络从HRTF库中为用户选取参数最接近的一套配置。这种参数获取方式其实已经在索尼的另一大3D音频服务360 Reality Audio中实现了，但该服务主要面向音乐应用。索尼还提到未来也许会开发一个音频游戏，通过得分来微调HRTF，为用户提供最契合的3D音频体验。

虽然不同厂商对HRTF的获取方式不同，但要想实现3D音频可没这么简单，同样必不可少的还有DSP。

高通

Waves旗下的Nx实现了一套专门用于耳机和耳塞的3D音频方案，利用心理声学来实现扬声器级别的3D听感体验。Nx将利用单个IMU来执行头部追踪，并借助手机设备的IMU来实现一套双传感器算法，根据移动或运动下的参考数据确保声场位置。

Hexagon 698 DSP / 高通

但这样的实现方式会消耗移动设备一定的算力，从而对电池使用时间造成影响。所以Waves与高通合作，通过高通的Hexagon DSP和硬件优化，Waves Nx能够有效率地运行在搭载骁龙芯片的手机上，实现沉浸式的音频体验而不会牺牲电池寿命。就拿骁龙865中的Hexagon 698 DSP来说，这一数字信号处理器只有指甲大小，却内置4核张量加速器，可以做到每秒15万亿次的算力。

CEVA

美国厂商VisiSonics也提供了自己的3D音频解决方案RealSpace 3D Audio，这是一套基于物理实现3D音频算法的空间音频软件，并支持房间反射、物体遮挡和HRTF的模型创建。此外，RealSpace 3D Audio既可以在设备app或DSP硬件上实现，也可以采用混合处理的方式。

RS3D在CEVA DSP上的实现 / CEVA

在DSP端，VisiSonics与著名DSP厂商CEVA合作，借助CEVA-X2或CEVA-BX1/BX2这三款DSP，RealSpace 3D Audio可以将5.1、7.1、基于物体的音频等立体音频空间化，并根据CEVA的六轴传感器FSP200获取头部跟踪数据。

CEVA-X2原理图 / CEVA

CEVA-X2是一款基于16nm工艺的10级流水线DSP，工作频率在2Ghz，达到4.5CoreMark/MHz的得分。该处理器包含两个标量处理单元，支持8/16/32/64位数据类型的算法和逻辑运算。正是因为拥有这样的性能，这款DSP才用作高性能语音处理，比如多麦克风语音处理、3D音频和高质量音频播放等。

小结

尽管如今市面上已经涌现了不少3D音频的解决方案，但其实现方式与兼容性都有所差距。单拿HRTF的获取来说，借助设备端的传感器是最简单的方式之一，但是较差，而通过app远程拍摄耳型与头型的方式则需要庞大的数据库支撑，因此往往仅对小数量的人群进行严格的HRTF测量，再借助计算机视觉和神经网络来匹配。除此之外，设备端DSP的不同有时可能会对同一3D音频方案的实现造成阻碍。

音源的录制方式同样为3D音频的普及带来了障碍，比如有的音频录制需要先交纳一定的授权费用才能使用，有的3D音频内容则只有在特定的设备上才可以进行播放。不仅如此，蓝牙设备的音频编解码格式（APTX、LHDC）、音频文件的格式（MPEG-H）同样会带来不同的3D音频效果。如此看来，3D音频确实可以带来非凡的听感体验，但目前来看效果不一而且多数厂商各自为战，要想占据主流市场，仍面临着不小的挑战。

本文由电子发烧友网原创，未经授权禁止转载。如需转载，请添加微信号elecfans999。

打开APP阅读更多精彩内容