如何评估3D音频解决方案总结头部跟踪中的关键因素

CEVA 2022-05-27 6256

描述

作者：CEVA 高级营销专员 Charles Pao

Charles Pao 毕业于约翰霍普金斯大学，获得电气工程学硕士学位后，他开始在 CEVA Hillcrest 实验室工作。他从事软件开发工作，研发了一个黑盒系统用来评估运动特征。Charles 十分热爱媒体和通信领域，开始为 Hillcrest Labs 制作演示和产品视频。出于热爱，他正式转岗到市场营销部门。目前，他是 Hillcrest 信息与支持部的第一联系人，并负责管理营销工作。同时，他还担任多种职责和项目管理角色。Charles 还获得了约翰霍普金斯大学电气工程和计算机工程理学学士学位。

沉浸式 3D/空间音频，与 XR/360 视频相结合，给您带来宛若置身于茂密深林的视听体验——飘落的细枝在脚下嘎吱作响，一头鹿向东原跑去，当您的目光追着一只红衣凤头鸟而远去时，您能听见它扇动翅膀的声音。

精准的头部跟踪有助于提供逼真的用户体验 (UX)，了解评估解决方案的关键因素，可以帮助您在不断发展的行业中找到方向。

头部跟踪的关键因素

为了便于理解，本文内容总结了头部跟踪中的关键因素。

延迟：它指视听信号从视听源发出到被用户感知之间的时间差。依据本文的目的，我们将其分为两部分。 —音频输入延迟：它指音频信号从音频源发出到被用户感知之间的时间差。 —头部跟踪延迟：它指当您的头部移动时，3D 音频处理变化以适应新的头部方向的时间差。

头部跟踪准确度：在本文中，我们讨论的是仅跟踪方向的 3-DOF 头部跟踪，而不是跟踪位置和方向的 6-DOF 头部跟踪。准确度指实际运动与其在扩展现实 (XR) 环境中对应位置之间的测定差。如果传感器（及其算法）不准确，您可能能够实时跟踪头部运动，但在虚拟环境中的运动与现实中的运动会存在差异。

头部跟踪平滑度：它指头部转变方向时，3D 音频转换的清晰和可察觉程度。您希望创造一种不受跳跃影响的 XR 体验。突然改变的输出会破坏沉浸式的体验感，在游戏过程中，甚至会导致死机。

测试因素

头部跟踪延迟

在没有合适的测量设备的情况下，对延迟进行测试并不简单，但可以用主观的方法进行测试。柏林工业大学 (TU Berlin) 音频通信团队的一项研究表明，人类受试者的平均检测水平为 108 毫秒，单声源的绝对检测阈值为 52 至 73 毫秒。这里需要澄清的是，该团队研究的是“总系统延迟”，它指说话者的音频输出和设备输出之间的时间差。研究得出的结论是，人类平均需要经过 108 毫秒才能注意到运动的变化。当从单个来源播放声音时，声音会更加明显。

收听预录制的音乐或其他受限音频的内容时，此延迟不会有任何影响。但是，对于录制的视频而言，如果显示器没有延迟图像解决音频输入延迟的问题，则可能会出现口型同步问题。对于视频游戏而言，您不希望出现画面延迟的状况，因为画面延迟会影响到玩家的游戏表现，因此低音频延迟对保持声音与游戏画面同步来说非常重要。延迟在一定程度上会一直存在，但关键是要尽量减少延迟，这样用户就不会察觉到延迟的影响。

在空间音频系统中，通常应用头相关变换函数 (HRTF)，混响或其他室内模拟技术，通过空间处理过的空间音频输入来映射头部跟踪数据。完成此处理后，有几种常用方法可以实现空间音频系统。

如果您在音频设备本机上运行空间处理算法，由于无线通信技术的影响，仅会增加音频的输入延迟。由于头部跟踪路径中没有无线链路，头部跟踪的延迟仍然很低。这是在同一设备上同时执行空间处理和头部跟踪的一个关键优势。

另一种方法是在手机等移动设备上执行空间音频处理。头部跟踪信息从可听设备发送至移动设备，移动设备会对其进行处理，然后将其推回给用户。由于存在额外的通信链路，与前一种方法相比，此方法会加大头部跟踪的延迟。通过蓝牙技术可将音频从电话传输到耳机，蓝牙延迟取决于使用的音频编解码器。较快的编解码器的延迟可低至 50-80 毫秒，但较常见的编解码器的延迟可达 170-270 毫秒。头部跟踪数据通常会增加 50-100 毫秒的延迟。

通过对空间音频系统的理解和人类延迟检测的研究，我们可以大致了解空间音频系统延迟的优劣情况。试着使用更高频的声音来测试延迟。低频噪声的方向性不显著（这就是为什么立体声系统通常只有一个低音炮）。

用于测试延迟的优质声源是一种连续的声音，可以很好地定位。理想情况下，此声源需混合多个频率的声音，但为了便于测试的说明，请考虑用不断播放的高频音频测试延迟。较高的频率更易于识别，而恒定音调可以让您注意到音频图像中的不同变化。

假设您的耳机的头部跟踪延迟为 200 毫秒。若要获得良好的音频渲染效果，我们希望音频图像的移动范围不超过 5 度。这意味着用户需要始终以低于 25 度/秒的速度移动。为了帮助您更好地想象，这意味着在 3.6 秒内将您的头部旋转 90 度。这种移速相当缓慢，您在正常情况下的移动速度比这快得多。

在测试中，如果您在大约 1/4 秒内将头部旋转 90 度，您将以 360 度/秒的速度移动。200 毫秒的延迟意味着声源将移动 72 度，但是它仅在 200 毫秒的时间内处于错误的位置。在测试中，以连续的声音作为参考，可以轻易辨别延迟情况。

准确度、精确度和平滑度

准确度与运动与真实世界/真实答案的差距有关。精确度与您获得相同答案的一致性有关。只有使用带有磁力计的完整 9 轴解决方案，才能测量出真正的准确度。但是，由于音频技术使用了磁性驱动器，以及不断变化的用户环境，使用完整的 9 轴头部跟踪解决方案并不切实际。这就是为什么大多数空间音频硬件只使用加速计和陀螺仪的原因。

测试精确度和平滑度有点棘手，但使用您的空间音频软件，应该能够测试它们的运行效果。清晰的语音音频（如播客）可能是测试这些标准的最佳工具。在播客中，说话者处于固定位置，所以无论您把头转至哪个方向，说话者的声音都应该来自同一个位置。当您移动头部时，3D 音频应该会发生从一个位置到另一个位置的变化，而音量或音质不会出现明显的落差或变化。

3D/空间音频耳机中的陀螺仪传感器容易发生偏移，这会降低耳机的整体精度。软件将为您提供多个选项：手动复位，慢速稳定或快速稳定。

如果您未调整偏移，会发现随着时间的推移，人们在房间里移动的速度很慢。也许他们一开始在您的正前方，但现在位于中心偏左的位置。这种效果是不理想的。您可以通过点击（设备物或软件上）指定的按钮来手动复位设备，说出“我再次直视前方”，并重新设置偏移度。但是，随着时间的推移，偏移度仍然会逐渐增加。缓慢复位方法利用了您的头部朝向视线对象这一事实。通过作出此假设，它可以在几分钟内重置陀螺仪偏移。快速复位方法利用了同样的思路，但是相比而言，可以在几秒钟之内立即实现移动。

您需根据具体的使用情形，选择理想的自动复位方法。如果您看向屏幕的同一方向，快速复位则是理想的选择，因为偶尔看向屏幕以外的位置不会影响复位，并让您的视线落点保持在中心位置。在活动开始时，重置“正前”方向可以指引复位，让您不必花费几分钟的时间等待算法调整。但是，如果您在家中的多个屏幕上玩游戏，在手机上玩动作游戏，或者在公园里散步，您的方向就会频繁变化。快速复位能够更好地跟上以上场景的方向变化。

当您转着头听播客时，试着注意声音在空间里的追踪效果，以及当声音移动时，声音位置变化的平滑程度（或者您是否注意到移动）。空间音频的流畅性主要体现在声音在位置转换过程中的清晰度。无论是缓慢还是快速转动头部，您能察觉到的音频位置的清晰变化都是平滑算法的标志。如果您在头部移动时注意到音频跳跃或明显量化的现象，这可能是跳转校正的迹象，或者传感器/系统无法平滑转换运动。

随着大型科技公司创造出各种 3D/空间音频的集成产品，3D/空间音频正成为世界的主流。产品越多，您就越需要了解如何挑选最佳产品。尽管以上评估在很大程度上代表了本人的主观看法，但我希望通过解释评估与测试背后的想法与逻辑，为您在 3D/空间音频的世界里畅游提供一些指引。如果您需要以可视化方式了解头部跟踪延迟的重要性，或者获取有关 HRTF 的更多信息，请查看网络研讨会视频。如果本文或网络研讨会的内容让您产生了兴趣，请向我们发送消息，以了解哪些 CEVA 产品能为您的项目提供最佳支持。

打开APP阅读更多精彩内容

如何评估3D音频解决方案 总结头部跟踪中的关键因素

CEVA

描述

如何评估3D音频解决方案总结头部跟踪中的关键因素