作者:CEVA 高级营销专员 Charles Pao
Charles Pao 毕业于约翰霍普金斯大学,获得电气工程学硕士学位后,他开始在 CEVA Hillcrest 实验室工作。他从事软件开发工作,研发了一个黑盒系统用来评估运动特征。Charles 十分热爱媒体和通信领域,开始为 Hillcrest Labs 制作演示和产品视频。出于热爱,他正式转岗到市场营销部门。目前,他是 Hillcrest 信息与支持部的第一联系人,并负责管理营销工作。同时,他还担任多种职责和项目管理角色。Charles 还获得了约翰霍普金斯大学电气工程和计算机工程理学学士学位。
沉浸式 3D/空间音频 ,与 XR/360 视频相结合,给您带来宛若置身于茂密深林的视听体验——飘落的细枝在脚下嘎吱作响,一头鹿向东原跑去,当您的目光追着一只红衣凤头鸟而远去时,您能听见它扇动翅膀的声音。
精准的头部跟踪有助于提供逼真的用户体验 (UX),了解评估解决方案的关键因素,可以帮助您在不断发展的行业中找到方向。
头部跟踪的关键因素
为了便于理解,本文内容总结了头部跟踪中的关键因素。
延迟: 它指视听信号从视听源发出到被用户感知之间的时间差。依据本文的目的,我们将其分为两部分。 —音频输入延迟:它指音频信号从音频源发出到被用户感知之间的时间差。 —头部跟踪延迟:它指当您的头部移动时,3D 音频处理变化以适应新的头部方向的时间差。
头部跟踪准确度:在本文中,我们讨论的是仅跟踪方向的 3-DOF 头部跟踪,而不是跟踪位置和方向的 6-DOF 头部跟踪。准确度指实际运动与其在扩展现实 (XR) 环境中对应位置之间的测定差。如果传感器(及其算法)不准确,您可能能够实时跟踪头部运动,但在虚拟环境中的运动与现实中的运动会存在差异。
头部跟踪平滑度:它指头部转变方向时,3D 音频转换的清晰和可察觉程度。您希望创造一种不受跳跃影响的 XR 体验。突然改变的输出会破坏沉浸式的体验感,在游戏过程中,甚至会导致死机。
测试因素
头部跟踪延迟
在没有合适的测量设备的情况下,对延迟进行测试并不简单,但可以用主观的方法进行测试。柏林工业大学 (TU Berlin) 音频通信团队的一项研究表明,人类受试者的平均检测水平为 108 毫秒,单声源的绝对检测阈值为 52 至 73 毫秒。这里需要澄清的是,该团队研究的是“总系统延迟”,它指说话者的音频输出和设备输出之间的时间差。研究得出的结论是,人类平均需要经过 108 毫秒才能注意到运动的变化。当从单个来源播放声音时,声音会更加明显。
收听预录制的音乐或其他受限音频的内容时,此延迟不会有任何影响。但是,对于录制的视频而言,如果显示器没有延迟图像解决音频输入延迟的问题,则可能会出现口型同步问题。对于视频游戏而言,您不希望出现画面延迟的状况,因为画面延迟会影响到玩家的游戏表现,因此低音频延迟对保持声音与游戏画面同步来说非常重要。延迟在一定程度上会一直存在,但关键是要尽量减少延迟,这样用户就不会察觉到延迟的影响。
在空间音频系统中,通常应用头相关变换函数 (HRTF),混响或其他室内模拟技术,通过空间处理过的空间音频输入来映射头部跟踪数据。完成此处理后,有几种常用方法可以实现空间音频系统。
如果您在音频设备本机上运行空间处理算法,由于无线通信技术的影响,仅会增加音频的输入延迟。 由于头部跟踪路径中没有无线链路,头部跟踪的延迟仍然很低。 这是在同一设备上同时执行空间处理和头部跟踪的一个关键优势。
另一种方法是在手机等移动设备上执行空间音频处理。头部跟踪信息从可听设备发送至移动设备,移动设备会对其进行处理,然后将其推回给用户。由于存在额外的通信链路,与前一种方法相比,此方法会加大头部跟踪的延迟。 通过蓝牙技术可将音频从电话传输到耳机,蓝牙延迟取决于使用的音频编解码器。 较快的编解码器的延迟可低至 50-80 毫秒,但较常见的编解码器的延迟可达 170-270 毫秒。头部跟踪数据通常会增加 50-100 毫秒的延迟。
通过对空间音频系统的理解和人类延迟检测的研究,我们可以大致了解空间音频系统延迟的优劣情况。试着使用更高频的声音来测试延迟。低频噪声的方向性不显著(这就是为什么立体声系统通常只有一个低音炮)。
用于测试延迟的优质声源是一种连续的声音,可以很好地定位。理想情况下,此声源需混合多个频率的声音,但为了便于测试的说明,请考虑用不断播放的高频音频测试延迟。较高的频率更易于识别,而恒定音调可以让您注意到音频图像中的不同变化。
假设您的耳机的头部跟踪延迟为 200 毫秒。若要获得良好的音频渲染效果,我们希望音频图像的移动范围不超过 5 度。这意味着用户需要始终以低于 25 度/秒的速度移动。为了帮助您更好地想象,这意味着在 3.6 秒内将您的头部旋转 90 度。这种移速相当缓慢,您在正常情况下的移动速度比这快得多。
在测试中,如果您在大约 1/4 秒内将头部旋转 90 度,您将以 360 度/秒的速度移动。200 毫秒的延迟意味着声源将移动 72 度,但是它仅在 200 毫秒的时间内处于错误的位置。在测试中,以连续的声音作为参考,可以轻易辨别延迟情况。
准确度、精确度和平滑度
准确度与运动与真实世界/真实答案的差距有关。精确度与您获得相同答案的一致性有关。只有使用带有磁力计的完整 9 轴解决方案,才能测量出真正的准确度。但是,由于音频技术使用了磁性驱动器,以及不断变化的用户环境,使用完整的 9 轴头部跟踪解决方案并不切实际。这就是为什么大多数空间音频硬件只使用加速计和陀螺仪的原因。
测试精确度和平滑度有点棘手,但使用您的空间音频软件,应该能够测试它们的运行效果。清晰的语音音频(如播客)可能是测试这些标准的最佳工具。在播客中,说话者处于固定位置,所以无论您把头转至哪个方向,说话者的声音都应该来自同一个位置。当您移动头部时,3D 音频应该会发生从一个位置到另一个位置的变化,而音量或音质不会出现明显的落差或变化。
3D/空间音频耳机中的陀螺仪传感器容易发生偏移,这会降低耳机的整体精度。软件将为您提供多个选项:手动复位,慢速稳定或快速稳定。
如果您未调整偏移,会发现随着时间的推移,人们在房间里移动的速度很慢。也许他们一开始在您的正前方,但现在位于中心偏左的位置。这种效果是不理想的。您可以通过点击(设备物或软件上)指定的按钮来手动复位设备,说出“我再次直视前方”,并重新设置偏移度。但是,随着时间的推移,偏移度仍然会逐渐增加。缓慢复位方法利用了您的头部朝向视线对象这一事实。通过作出此假设,它可以在几分钟内重置陀螺仪偏移。快速复位方法利用了同样的思路,但是相比而言,可以在几秒钟之内立即实现移动。
您需根据具体的使用情形,选择理想的自动复位方法。如果您看向屏幕的同一方向,快速复位则是理想的选择,因为偶尔看向屏幕以外的位置不会影响复位,并让您的视线落点保持在中心位置。在活动开始时,重置“正前”方向可以指引复位,让您不必花费几分钟的时间等待算法调整。但是,如果您在家中的多个屏幕上玩游戏,在手机上玩动作游戏,或者在公园里散步,您的方向就会频繁变化。快速复位能够更好地跟上以上场景的方向变化。
当您转着头听播客时,试着注意声音在空间里的追踪效果,以及当声音移动时,声音位置变化的平滑程度(或者您是否注意到移动)。空间音频的流畅性主要体现在声音在位置转换过程中的清晰度。无论是缓慢还是快速转动头部,您能察觉到的音频位置的清晰变化都是平滑算法的标志。如果您在头部移动时注意到音频跳跃或明显量化的现象,这可能是跳转校正的迹象,或者传感器/系统无法平滑转换运动。
随着大型科技公司创造出各种 3D/空间音频的集成产品,3D/空间音频正成为世界的主流。产品越多,您就越需要了解如何挑选最佳产品。尽管以上评估在很大程度上代表了本人的主观看法,但我希望通过解释评估与测试背后的想法与逻辑,为您在 3D/空间音频的世界里畅游提供一些指引。如果您需要以可视化方式了解头部跟踪延迟的重要性,或者获取有关 HRTF 的更多信息,请查看网络研讨会视频。如果本文或网络研讨会的内容让您产生了兴趣,请向我们发送消息,以了解哪些 CEVA 产品能为您的项目提供最佳支持。
全部0条评论
快来发表一下你的评论吧 !