计算音频迈入AI驱动新纪元？

A6v0_World_2078 2024-04-07 2416

音频技术

96人已加入

前言：计算音频不是一个新鲜的话题。尤其是从苹果在 WWDC20 上宣布「空间音频」开始，计算音频时不时就会成为行业、媒体关注的焦点。

作者 | 方文三

计算音频萌发新芽

计算音频的应用在专业领域，上到乐队、视频特效、剪辑使用的混音器，下到网易云音乐里的EQ设置，这些其实都是计算音频技术，通过内部的DSP对音频信号进行处理，然后再输出到音频设备播放，只要完成以上过程，其实都可以算是计算音频。

计算音频并非一定要对音频信号的各频率声音进行调整，有的HiFi厂商就热衷于在各个处理环节保证音频信号不受干扰和改变，将最原始的音频信号输出给音频设备，这也是最初的高保真，也就是Hi-Fi的本义。

不过，随着市场的变化，音频市场逐渐渗透到各个阶层，他喜欢古典、你喜欢摇滚、她又喜欢轻音乐，在众口难调的情况下，为了让使用者可以得到更符合自己喜好的声音，有人就将原本用在专业领域的均衡器功能加入到播放软件中。

在均衡器页面，用户可以轻松调整音频信号的各频率增益，喜欢低频的可以拉高低频频段，喜欢人声的则可以拉高中频频段，各取所需打造适合自己的声音。

可以说，均衡器就是多数人第一次接触到计算音频的时候，而在更早之前，一些音频设备上的高低音增强按键或旋钮，其实也是均衡器的一种，只是做了简化。

计算音频技术无处不在，长影院到车载音响，再到家里的电视、你的电脑、你的手机，其实都使用了计算音频技术，这项技术并不新颖，反而是有些“古老”。

均衡器

从调音为王到技术先行

在2023年，会有更多的厂商加入到降噪的战场中，并不是说之前其他厂商都重视降噪，只是说他们还没有像vivo、OPPO那样去追赶顶尖水平。AirPods Pro2的发布，算是掀开了降噪军备赛的新篇章，消费者对TWS耳机的降噪功能也提出了更多的要求。

除了降噪之外，另一个备受关注的功能则是空间音频，同样是苹果率先在AirPods3上实现，安卓厂商开始奋起直追。不得不说，在无线音频方面，苹果的AirPods团队有着十足的原件和强大的研发能力。

空间音频，或者说计算音频技术的出现，使得TWS耳机拥有了更多的可能。

传统的耳机音质往往由工程师调音、单元结构、材质、设计等相关，TWS耳机也是如此，而且相比起传统耳机来说，TWS耳机还需要腾出空间安置蓄电池、无线接收模块等硬件，声学设计难度更大。

不过，随着计算音频技术得到突破性的发展，TWS耳机可以利用内置的计算芯片来提供更好的音乐效果。我们看到了专属音频芯片对TWS耳机的帮助，降噪、无线传输速率、稳定性和计算音频效果等都得到了明显提升。

当然，计算音频技术不仅仅惠及TWS耳机，基于手机系统打造的音频功能，将会使得手机系统的HiFi体验得到明显提升，基于此，独立音频芯片或许会成为一些厂商下一个角力的战场。

率先吃上AI芯片的TWS耳机

最新一代的vivo TWS 4，除了降噪深度上的进一步提高，vivo还用上了过去在万元级高端音响上的陶瓷钨振膜单元，将高音的截止频率提高到48kHz，除了提高高频细节的表现，据称还解决了高音分割振动带来的失真问题。

同时，vivo TWS 4 HiFI版还首发搭载了同日发布的第三代高通S3音频芯片，除了支持低延迟的 aptX Adaptive传输协议，还支持aptX Lossless无损音质传输协议。

在这款芯片的支持下，vivo TWS 4 HiFI版可以实现最高1.2Mbps的传输码率，相当接近CD无损音频所需要的1.4Mbps传输码率标准。

不仅如此，一起发布的第三代高通S5音频芯片更是基于高通S7标准架构，AI性能比前代暴涨了50多倍。

考虑到今天计算音频早已成为耳机行业的共识，AI驱动的趋势也变得越来越明显，高通今天发布的两款芯片，显然无法小觑。

高通押注AI音频

第三代高通S3定位于中端，计算性能比前代芯片翻了一番。同时还支持高通语音和音乐合作伙伴扩展计划提供的各种第三方解决方案，包括了一系列提前验证过的技术，比如听力增强、空间音频、回声消除和健康追踪等功能，以此缩短OEM厂商推出新品的时间。

第三代高通 S5定位于高端，大核心升级就是暴涨的端侧AI性能。根据高通介绍，第三代高通S5采用了高通S7的最新标准架构，计算性能相比前代提高了3倍，AI性能更是达到了50倍以上。

并且增强的ANC降噪和语音处理功能，除了更好的降噪体验，还可以实现响应更灵敏的「无缝音频体验」，即根据设备的使用方式和位置，在多设备间无缝切换和使用。同时，第三代高通S5还能实现超低功耗运行。

事实上，第三代高通 S5在AI性能上的提升和重视并不意外。在去年秋天发布的第一代高通S7系列（同架构）上，高通就实现了近100倍的AI性能提升，还特意提到了端侧AI的协同工作能够在工作、游戏等任何场景下提供沉浸和个性化的音频体验。

结尾：

当下在AI模型在足够分辨率中，完全可以通过训练和调校知道什么是好的图像和好的声音，并且有能力生成高质量的图像和声音，也有能力根据每个人的偏好和习惯提供更好的声音体验。

在计算音频的道路上，相比传统音频缓慢的进步速度，AI驱动的计算音频还有很大的潜力有待挖掘，就算高通不押注，更多有想法、敢突破的厂商也不会错过。

审核编辑：黄飞

打开APP阅读更多精彩内容