如何提升沉浸感?如何提升空间音频体验?头部跟踪功能RealSpace解决方案

CEVA 2023-08-01 4276

描述

音频已成为我们使用媒体时沉浸感和逼真度的重要组成部分。当前的技术正在加强各种体验本身的沉浸式体验，让它们更加栩栩如生，但如果没有头部跟踪，由于大脑无法解决这种关键的含糊不清问题，这种沉浸感可能会被破坏。

试想一下，您正在街上走路，突然听到右侧有人喊您的名字。您将头转向那个方向。此时，喊您的人就在您的视线前方。但是，当他们再次喊您的名字时，尽管您已经转了头，但听起来声音仍然像是从您的右侧传过来。事实上，无论您做什么或如何转头，无论喊您的人在什么方位，您听到的声音都始终从您的右侧传来。这不符合现实世界的规律。

再或者，如果您在玩开放世界的奇幻电子游戏，您的角色正在探索山顶上的宝藏，情况会怎样？游戏告诉您，您的任务目标，也就是埋藏的宝箱，将开始发出叮当声，越接近宝箱，声音就越大。您可以听到叮当声，但您无法确切分辨声音是来自前方还是后方。当您走动时，您无法分辨声音是变得越来越大、越来越小还是保持不变。那么，您要如何才能找到自己的目标呢?

之所以会这样含糊不清，原因也是一样：当您的头部移动，并且改变其相对于声源的位置时，您的大脑会漏掉现实生活中的细微音频提示。

音频已成为我们使用媒体时沉浸感和逼真度的重要组成部分。当前的技术正在加强各种体验本身的沉浸式体验，让它们更加栩栩如生，但如果没有头部跟踪，由于大脑无法解决这种关键的含糊不清问题，这种沉浸感可能会被破坏。如果您希望获得广泛、引人入胜且令人兴奋的体验，那么在没有头部跟踪的情况下，您的体验将很难达到理想的水平。

我们如何定位现实世界中的声音

对于我们感知周围环境并与之互动的能力而言，声音是不可或缺的一部分。在让我们的大脑快速准确地识别声音的位置和来源方面，我们的两只耳朵发挥着至关重要的作用。例如，来自人左侧的声音会先到达左耳，然后再到达右耳，这称为双耳时间差(ITD)。由于声音到达右耳需要经过额外的距离，两只耳朵的声压水平也会有差异，这称为双耳声级差(ILD)。

确定声源位置（方向和距离）的过程称为声音定位。但是，我们的听觉系统不仅包括耳朵，还包括大脑、头部、肩部等。声波在到达耳膜之前，会与我们的头部、肩部以及耳朵的耳廓和耳道相互作用。声波与我们听觉系统解剖结构各个部分的相互作用会导致不对称反射，从而导致声源频谱发生变化。

耳朵从空间中的一点接收声音的这一过程可以用头部相关传输函数(HRTF)来表征。HRTF测量声音在最终进入耳道之前在人的头部、肩部和耳朵上的散射和反射方式所引起的声音变化。每个人都有一个独特的HRTF，具体取决于其听觉系统的解剖结构。

大脑利用双耳时间差(ITD)、双耳声级差(ILD)和频谱内容差异来定位声音。我们的大脑会持续不断地实时处理所有这些信息，以生成并填充我们周围环境的声音地图。这不仅包括您的左侧和右侧，还包括您的前方和后方，以及上方和下方。这会涵盖您周围的全部空间，包括距离。

用音频创造沉浸感

这里我们将引入空间音频的概念。简而言之，这是一个宽泛的总括性术语，用于描述各种音频播放技术，利用这些技术，我们能够在三个维度上感知和体验环绕声。

例如，在家庭影院中设置传统的5.1或7.1环绕声扬声器。这是许多人都拥有并十分喜爱的一种设置。但是，这种设置具有以下缺点：

1.需要高质量的扬声器，其价格可能相当昂贵；

2.拥有一间声音效果足够好或经过声学处理的房间，以便能够充分享受这些扬声器的效果（而不会打扰邻居！）；

3.需要专业知识来优化该房间中这些扬声器的性能。

传统头戴式耳机、头戴式配麦耳机和耳塞式耳机的另一个问题是，它们往往会给人一种所有声音都源自头部的感觉。空间音频技术通过以下方式解决了这两个问题：

1.支持我们创造沉浸式、引人入胜和逼真的声景，同时可轻松应用于头戴式耳机、头戴式配麦耳机和耳塞式耳机，从而大大降低了入门门槛，提高了易用性；

2.支持我们将声音外化，并为听众创造沉浸式声景。这使我们解决了传统头戴式耳机、头戴式配麦耳机和耳塞式耳机的一个基本问题，声场随您一起移动，而当我们收听外部扬声器或与周围现实世界互动时，就不会发生这种情况。

沉浸感是如何被破坏的

试想一下，您正在马路的人行道上行走，一辆汽车在您的左侧按喇叭。如果您转头看向汽车，这辆鸣笛的汽车现在应该就在您视线正前方。声场相对于外部世界保持静止，改变的是您头部的方向。好了，让我们再来试想一下，您正在戴着耳机观看电影，在电影中，一辆汽车在您的左侧按喇叭。如果您朝该方向转头，声场将会随您一起移动，因为声场与耳机锁定，所以不会根据您的头部运动改变声音。这与现实世界发生的情况形成鲜明对比，也是导致头部声场崩溃、沉浸感被破坏的根本原因之一。

扬声器

▲图1：未启用头部跟踪的空间音频

另一个可能出现的问题是前后混淆。我们人类不太擅长区分与每只耳朵等距离的两个相同声音，即使一个声音在我们前面，一个在我们后面，特别是如果声音来自锥形混淆区。锥形混淆区是一种从头部中心向外延伸的想象锥形区域，因此，位于该锥形区圆形底部轨迹各点上的任何声源都与耳朵等距。请参阅此示意图：

扬声器

▲图2：锥形混淆区

从该图中可以看出，两个声源A和B都位于锥形混淆区上，距双耳的距离相等。因此，尽管一个声源在前面，一个在后面，但它们产生相同的ITD和ILD，因此很难区分和定位，从而会导致前后混淆。

通过移动头部体验真实声场

现在，如果我们在这种等距混淆局面中添加头部跟踪器，情况会怎样？通过添加头部跟踪器，空间处理便可以解析头部相对于声场虚拟中心的运动，并根据头部运动调整ITD、ILD和HRTF。这使声场能够固定在空间中。当您将头部转向某个声音时，您会听到该声音位于您的前方。这些对细微动作的精确响应不仅是解决前后混淆问题的关键因素，也是创造沉浸式用户体验的关键因素。

试想一下，您正在玩一款高度沉浸式虚拟现实的第一人称射击游戏(FPS)。您加载并进入一个外星飞船关卡，那里一片漆黑，没有一丝光线，而且还有外星人在您周围四处走动。如果您听到的脚步声恰好源自于锥形混淆区，那么将很难进行定位。但是，如果使用了头部跟踪器，您头部的细微动作以及实时向您大脑提供的信息将会极大地解决前后混淆问题，让您能够准确定位那些外星人的脚步声。

扬声器

▲图3：启用头部跟踪的空间音频

同样，在没有视觉提示的情况下，我们也难以衡量声源的高度。如果您使用扬声器（配置了环绕声）或传统耳机，则很难感受到在您上方的声源。空间音频技术可以创建和渲染必要的滤波器和线索，支持用户感知高度。在混音中添加头部跟踪器，再次强调一下，头部的细微动作以及声景对这些动作的反应方式将帮助您准确定位躲藏在上方通风井中的外星人！瞧，您成功通过了可怕的外星飞船黑暗关卡。做得好！

乏善可陈还是一鸣惊人？

如果没有头部跟踪功能，您的音频体验的逼真度和沉浸感将大大受限。通过该功能，我们不仅能够将声音外化，防止头部声场崩溃，还能在我们周围的三维空间准确将其定位，从而解决诸如前后混淆等含糊不清问题。

如果您对这项技术感兴趣，希望增强您的可听戴设备，不妨了解一下我们的RealSpace解决方案！RealSpace是一款搭载了头部跟踪技术的多声道、双耳渲染引擎，可带来真正的沉浸式体验。RealSpace能够直接在TWS或音频耳机上将单声道、立体声、多声道或环绕声音频内容渲染为双声道空间音频。

RealSpace可应用于多种平台，包括个人电脑/笔记本电脑、手机、VR/AR设备以及用于耳机或TWS的嵌入式DSP。RealSpace基于精确的物理环境建模，可营造令人难忘的沉浸式音频体验。

本文作者：Kaushik Sethunath, Audio Test Engineer and Content Developer, CEVA

关于CEVA

CEVA是排名前列的无线连接和智能传感技术以及集成IP解决方案授权商，旨在打造更智能、更安全、互联的世界。我们为传感器融合、图像增强、计算机视觉、语音输入和人工智能应用提供数字信号处理器、人工智能处理器、无线平台、加密内核和配套软件。这些技术与我们的Intrinsix IP集成服务一起提供给客户，帮助他们解决复杂和时间关键的集成电路设计项目。许多世界排名前列的半导体厂商、系统公司和OEM利用我们的技术和芯片设计技能，为移动、消费、汽车、机器人、工业、航天国防和物联网等各种终端市场开发高能效、智能、安全的互联设备。

我们基于DSP的解决方案包括移动、物联网和基础设施中的5G基带处理平台；摄像头设备的高级影像技术和计算机视觉；适用于多个物联网市场的音频/语音/话音应用和超低功耗的始终开启/感应应用。对于传感器融合，我们的Hillcrest Labs传感器处理技术为耳机、可穿戴设备、AR/VR、PC机、机器人、遥控器、物联网等市场提供广泛的传感器融合软件和惯性测量单元 (“IMU”) 解决方案。在无线物联网方面，我们的蓝牙(低功耗和双模)、Wi-Fi 4/5/6/6E (802.11n/ac/ax)、超宽带(UWB)、NB-IoT和GNSS 平台是业内授权较为广泛的连接平台。

打开APP阅读更多精彩内容