Google最新推出的音频编解码器Lyra

LiveVideoStack 2021-03-11 4464

描述

Google最新推出的音频编解码器Lyra，不仅实现了以每秒3kb网络宽带提供听起来自然清晰的语音聊天，还可以在仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。

2月25日，Google AI blog发布了一篇文章详细的介绍了最新推出的Lyra——一种用于语音压缩的新型超低比特率编解码器。该编解码器使Google Duo，以及未来的其他应用程序能够以每秒3kb的网络宽带提供听起来很自然清晰的语音聊天。

众所周知，人们对实时音视频的需求不断增加。特别是去年由于受到疫情的影响，许多人不得不隔离在家，只能与亲朋好友通过视频通话的方式保持联系。例如，仅去年一年Google Duo和Meet就承载了超过1万亿分钟的视频。而这些情况无疑是给全球的互联网基础设施带来了巨大的挑战。除此之外，虽然有些人可以使用一致的高质量，高速网络，但这种连接并不普遍。比如在网络通信并不发达的农村地区。然而，尽管在连接良好的地区，人们有时也会遇到质量差、带宽低的问题。那么如何在有限的带宽下实现高质量的音频输出就成为了目前最重要的议题。

Lyra音频编解码器

音频编解码器

因此，Google推出了一种高质量、低比特率的新型音频编解码器——Lyra。尽管用户在网速很慢的情况下，也能进行语音聊天。Lyra编解码器的基本结构体系非常简单，如上图所示。而Lyra与其他音频编解码器的不同之处在于：它利用机器学习模型，开发了一种新的模型，能够使用最少的数据来重建语音。这种模型不仅能够区分信号，还能生成全新的信号。与之相比，传统的参数编解码器只从语音中提取关键参数，然后用于在接收端重建信号。虽然实现低比特率，但得到的音频通常听起来很机械，不自然。而Lyra利用这些新的自然声生成模型，即能够保持参数编解码器的低比特率，同时又能实现高质量的音频输出。这与目前大多流媒体平台中使用的波形编解码器几乎不相上下。更重要的是，Lyra的效率足够高，可以在仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。

与现有编解码器对比

Lyra目前被设计运行在3kbps情况下，听力测试表明，Lyra的表现优于任何其他编解码器。并且优于在相同8kbps情况下的Opus，从而实现了超过60%的带宽减少。Lyra可以在带宽条件不适合高比特率和现有的低比特率编解码器不能提供足够质量的情况下使用，这是它的一大优势，也是解决现在低音频质量的方案。

以下是Lyra与现有编解码器的对比：

在安静的环境下：

Original 原始音频

Opus@6kbps

Lyra@3kbps

Speex@3kbps

在嘈杂的环境下：

Original 原始音频

Opus@6kbps

Lyra@3kbps

Speex@3kbps

上方是Google提供的Lyra与Opus、Speex分别以6kbps和3kbps，对同一音频的压缩质量对比。能够明显感受到即使Lyra在3kbps情况下，自然语音音频的清晰程度也远优于Opus在6kbps下的情况。

适用情况

Google已经利用开源音频库对Lyra使用超过70种语言的扬声器进行了数千小时的音频培训，然后与专家和来自广泛的听众一起验证音频质量。Lyra在一个广泛的数据集中训练，包括大量不同语言的使用者，以确保编解码器能够应对各种情况。另外，Lyra还可以在云环境中使用，以方便使用各种网络和设备的用户能够无缝对接聊天。不仅如此，Google还将Lyra与新的视频压缩技术（例如AV1）配对后，即使用户通过56kbps拨号调制调节器连接到Internet，也可以进行视频聊天。

责任编辑：lq

打开APP阅读更多精彩内容