盘点AVS编码标准的技术现状与媒体编码的未来

BYXG_shengwang 2018-10-24 8026

电子说

1.3w人已加入

描述

本文整理了北京大学教授马思伟在 RTC 2018 实时互联网大会上的分享，从技术、编码与传输角度，分享了媒体编码的现状与未来，以及 AVS 编码标准的技术现状。

我的演讲主题是《新媒体编码时代》。这里的“新”有两个含义，第一是指新时代，技术与应用场景出现创新；第二是指媒体“新”，需要编码的材料数据改变了。

我在 RTC 2017 曾讲过《视频编码未来简史》。当时叫视频编码新时代（如上图图解），革命之一是采集革命，采集的数据发生了变化，视频从标清向高清、超高清方向发展。还有其它的一些数据，包括光场、点云、神经脉冲。理论也有很多，包括传统的奈奎斯特采样、压缩感知。

革命之二是计算革命，编码计算提升了很多，有 CPU、GPU、NPU，计算能力的提升使得原先因太过复杂而无法使用的算法变得可用了，提高了编码效率。

第三个是认知革命，数据处理有了新的方法，处理能力更强了，业界谈的比较多的方法就是深度学习。

基于这三个革命，编码在朝智能编码的方向发展。其实，智能编码并不是新概念，80年代后期到90年代中期，业界一直在讲智能编码。不过，到现在为止智能编码还始终处于第二代。

今天，我从三方面讲：新媒体，我们看到新的数据类型要编码；新技术，技术从编码、传输、跨媒体智能讲，我们朝智能方向发展了；新应用，一般是大家说的 4K、8K、VR 这些应用。

新媒体编码时代：新媒体

首先讲新媒体。很多人介绍自己专业的时候通常说我是做数字媒体技术的，或多媒体技术的。我们要把媒体和技术分开来看，所谓的技术是计算机对媒体的处理技术。在以前“通信基本靠吼，交通基本靠走”的年代，没有媒体，后来出现了文字，再后来，声音、视频、图像可以保存，随后催生了新的产业。接着出现了 3D、AR、VR，最后到智能媒体。总的来说，技术催生新媒体的诞生，这是关于媒体的介绍。现在提的比较多的凡是包含三维信息比如光场、点云的媒体都统称为新媒体、三维媒体，这些不是新名词，只是现在我们强调的越来越多。

关于沉浸媒体，在今年的 ACM Multimedia Systems 大会上，Philip Chou 提出，“Holograms are the Next Video”。在他看来，全息是下一代视频。上面有两个图，1977年的星球大战电影里，出现了光场投影，是那时候我们最初对三维沉浸媒体的想象。右图则是2018年的想象。我们已经想象了40多年。Philip Chou 在会上有两句话我印象很深刻，一句话是“Hologram compression today is like video compression in 1988”。王田博士也讲到，今天的点云编码水平，相当于 30 年前视频编码的水平。1988 年时 MPEG 刚刚成立，当时只有 JPEG。MPEG1-VCD 是在 1992 年才出现的。另一句话是关于流媒体的，“Hologram streaming today is like video treaming in 1997”。1997 年，国际会议在讨论流媒体技术。我想，当初讨论流媒体技术的人看到今天互联网流媒体的发展，应该是感到很震惊的。还有一句话，“如果你看到了视频的发展趋势，那么你一定会同样看到全息的趋势。” 所以，沉浸媒体是未来的趋势。

关于沉浸媒体提供的感觉，主要有三类：视觉、听觉、交互。视觉要提供更高分辨率，分辨率上去之后才更清楚、更清晰。听觉方面，要高质量、三维全景声，感觉好比演唱会、演奏会。交互方面，讲求低延时、交互自然。

沉浸式媒体的系统是比较复杂的，从前端采集到中间编码传输到后端显示时间，每个模块都是相互关系很强的，每个模块都得做好才能呈现好的效果。

相关的组织都在做很多的研究，大概可以分成上图这样几个层次，第一个层次是关于最基本的数据的表示，看到的 JEPG 图像、MPEG 视频、IEEE、AVS；中间层是关于应用，比如 VR-IF，3GPP 等国际组织都在演讲。上层是体验，用户端体验做不好用户肯定不接受，包括 ITU-T、VQEG、QUALINET 等组织。

我们今天关心的主要是最底层的编码技术表示。今天另一场演讲中，王田老师提到了沉浸式媒体，这是 MPEG 目前做的工作标准。这些技术的应用从早先 MPEG1、2，后来到了 MPEG4，H.265 等等。

我们今天主要说的是 MPEG-I，沉浸式媒体。上图是 MPEG-I 的发展路线图，只包含视觉相关的，不包含音频的内容。其中之一是关于 New Video Codec，还有点云，从静态对象到动态对象，以及光场，包括相机阵列等。

我们熟悉的是手机上数码相机上都在用的 JPG。但实际上 JPEG 做了很多，其中一个是 XL，新一代图像压缩；另一个是 PLENO，光场图像压缩。

AVS 一直都在做高效视频编码，做的是面向广播的编码。从 2002 年开始，至今已经 16 年了。2006 年成为国家标准，进展比较快，2012 年能 AVS 成为广电行标，2016 年 AVS2 成为广电行标，也是国家标准。目前在4K的超清广播应用比较多，今年 10 月做试运行，明年北京冬奥会会有 4K 的超清广播。对于 VR，AVS 有一个 HV 的工作组，有专门面向 VR 的 HV1857.9 视频标准。

先普及一下沉浸式视频的多维度属性。包括分辨率，从标清到高清到超高清，有更高的帧率、更高的采样精度，更多的模型数据，色域更丰富。

全景视频方面，视场角中的 1° 能看到 60 个像素就可以达到视网膜级别。如果是 4K ，视角是 36°，平均下来每度 100 多个像素。有时候说看 4K 就够了，不需要 8K 了，依据是从这儿来的。但实际上，8K 之后视角变得更大，也需要更高的像素。如果以这个算目前的 4K 全景，平均下来 1° 只有 11 个像素，离 4K 高清差的很远。为什么 4K 全景质量差？因为本身信号提供的就不够。如果要做全景视频，按照前面的分辨率算的话，像素值至少要到 22Kx11K，完全全景的话要 24Kx12K。计算下来数据量达到 4Gbps，只能等 5G 技术的到来。

还有其他媒体，点云、网格、光场、深度之间都可以转换处理，不止体现在数据格式上转换处理，后面编码的时候也可以做相应的融合。

刚才看到的都是比较传统的相机采集的数据进行编码，现在已经出现了另外一种形式的采集，是在仿生的采集（如上图）。原理是这样的。首先，视频采集的数据量很大，尤其是运动速度很快的时候，普通的相机采集的话都会出现模糊。第二，我们采集完这些视频再做处理，做特征的提取，进行对象的分析识别。这个处理过程与人的视觉识别处理是相差很远的。第一个问题，人眼是每秒 30 帧吗？肯定不是，因为人眼的获取原理本身就和传统相机不一样。那么仿生采集指的就是后端传输的是神经脉冲信号，当环境中要测那个点发生变化时才传输信号，这个原理与普通的相机采集不一样。但是传输神经脉冲信号后如何进行编码，到现在也没有完全解决。我们可以看下面这个视频，它直观解释了传统相机采集与仿生采集的区别。

新媒体编码时代：新技术

现在已经进入第三代标准时期。MPEGY 有 VVC（Versatile Video Coding），俗称是万能的。AV1、AVS3，都是第三代标准。

视频编码做了这么多代标准，做编码的人会问编码效率做了这么多优化，继续做下去有没有意义？

有一个经济学的悖论：提升资源消耗效率，结果消耗的资源更多。比如，要提高煤炭的燃烧效率，后来煤炭的燃烧效率提上去了，煤烧得更多了。原理是效率支撑了更多的需求，从而带来了更多资源的消耗。带宽传送也是一样，如果我们提升带宽，进一步提升压缩效率，全景视频、点云等新的应用就会跟着来，然后带宽消耗还会更高。从这个角度来看，需要更高效的压缩技术。

再看编码的具体技术，下图是我们熟悉的框架，编码所做的工作非常精细、琐碎。整个工程就像手表里一个个连接的小齿轮、大齿轮。我们的工作就是删掉其中一个齿轮或者把几个齿轮并成一个齿轮，并让表跑得更准，更省电。

在 AVS3 的时间规划上，预计明年 8 月份会发布第一版，第一版是复杂度和效率做的比较平衡的一版。2021 年会发布第二版，最终目标是面向8K、VR、流媒体等应用，编码效率比 AVS2 再高一倍。AVS3 的特征可以这从两方面看，传统技术 AVS 在做很多研究，包括块划分、运动预测、变换等；智能方面也有研究，，用神经网络做变化预测滤波，编码与传输的联合。

早先我们一直做的是信源信道联合编码。我们可以靠一些传输技术来折中编码效率，不用很复杂的编码方法就达到编码效率的提升，比如，媒体端 CDN 中存了很多视频流，不同流之间存在关联，一句话解释就是类似于 P2P 传输式，我可以在传输中利用高层的传输支持达到相关内容的更高效的预测编码。利用这种技术可以提升 30% 以上的压缩效率。

国际标准方面，2015年10月份已经开始围绕新一代 JVET VVC 标准进行讨论，现在已经三年了。技术进展很快，编码效率相比 H.265 提升 40% 以上。今年4月份在圣地亚哥开的一次会议上，有一个环节：响应提案征集，SDR 有 22 项提案，HDR 12 项，360 全景 12 项。

下图那次会提交的 SDR 提案征集。中国从 1996 年开始参加 MPEG，前期参与的时候主要是大学和研究所，没有中国的公司。但是近年，中国的公司，比如华为、海康威视、腾讯、大疆、头条等都开始积极参与国际标准的制定，这是很好的现象。同时说明中国近十年二十年来培养了不少人才，这是我们学校的贡献。也欢迎更多的公司可以参与国际标准，也可以参与 AVS 标准的制定。AVS 和 MPEG China 是一体的，加入 AVS 就相当于加入 MPEG China。

再看技术情况，新特色是体现在从信号处理到深度学习。这些提案里，有5个都用到了深度学习的技术，其中有关于预测的，也有关于滤波的。我会重点讲一下预测。

神经网络和编码之间的联系在哪儿呢？可以用一个比较简单的图来解释。下图是传统的变换，分解成变换系数，后来做量化、反量化，量化反量化之后带来失真。失真之后如何做一个最优的量化，使得量化的误差最小？最小误差范围表示成二进制的形式，S1、S2 每个数要么是 0 要么是 1。量化决策的过程，实际上是，选择 0 或者选择 1 使得整个误差最小，这就是一个优化的问题。优化的问题就是神经网络最擅长的工作，这个工作就可以交给神经网络，帮你选择是 0 还是 1，这是变换和神经网络的相通之处。

原来做帧的预测，选周围像素，找一个插值滤波器，使得插值之后要逼近预测的值，使得误差最小。如果用神经网络做的话，把周围像素传过去，神经网络帮我找加权、找偏移量。计算完之后失真最小，那么网络就训练好了。以后做预测的时候，把数据送给它就自动处理，像黑盒一样。这就是基于神经网络的预测。

目前用神经网络去做变换、预测、滤波的已经有很多了，每个模块都很多。但如果只做这些的话，还是像玩票一样。毕竟神经网络在模式识别方面应用得很好，到了编码这边做了很多，但是还没有打败传统编码，还是基于信号处理这套。

现在有了新的概念，Towards Conceptual Compression。在下图中，最底部的一行原始图像，最顶部模糊的编码的。从上面的编码，一步步推理迭代，能够生成底下的原始图像，这是用神经网络来做的。我认为可以叫做概念（意象）压缩。它强调的是，人的脑子里对一个图像有个模糊的印象，但是恰恰靠这个模糊的印象就能够做判定。这个概念正在进行中。

这是另外一个工作，刚才是用神经网络做表示、做生成，现在可以用神经网络在压缩层次上提供对这个内容分析理解的支持。传统基于信号处理的压缩，如果要进行分析会很困难。如果是基于神经网络的话，由于是基于特征的表示，对于媒体的分析理解会更加智能。

再看一看媒体分析，从多媒体到跨媒体。左边从视频到文字，给定视频后可以对应生成文字。右边反过来再从文字生成视频，从文字到视频比较有限制，限制于数据集，靠文字描述生成视频出来。这种技术再结合前边基于神经网络的压缩，智能压缩前景无限，这种技术对媒体的分析和理解肯定比传统编码更优越。

接下来的内容是关于新媒体编码。关于光场，目前光场有两类，一类是基于相机阵列，还有用一些小凸透镜，相当于集中成像。对于光场，新类型的媒体可以用现有的框架去进行编码。

对于点云，虽然我们感觉它是新数据，其实也有比较好的编码处理方法。原来图像是二维的，分成一个块一个块处理。到了点云之后是三维的，也很简单，把它分成三维的块，原来是平面划分，现在改成立体划分，划分完之后这些数据可以进行变换、预测、处理。和传统编码也可以做一个很好的结合，目前这块都是处于比较初步的阶段，还需要继续研究。

以上是点云和光场与传统的编码框架之间的结合。还有一部分是关于光场编码和点云编码，光场编码处理也可以用点云的编码进行编码框架表示。基本思想是小凸透镜成像，从每个角度情趣看这个图像，就可以看成一个球的图像。把球的图像进行分解，有一些系数，系数类似于点云的属性系数。

关于传输，编码和传输都有很大的影响。传输有些是我们比较熟悉，比如 HLS、DASH。后端基于 Tile，把内容划分成 Tile，根据带宽情况，选择传输相应质量的内容。这个工作对于全景视频传输很有用处，因为全景视频某些时候只是看某些角度，不是看整个内容，所以可以基于 Tile 的传输降低整个传输的工作量，还能提升图像的质量。

视点依赖的流媒体传输就是指全景传输。那么，我们就可以利用神经网络，提前预测人看哪块内容，提前把信号内容发送过去以获得更好的体验质量。可以基于观者本人，也可以基于其他观众的注意来预测。

神经网络智能不止是在编码，在传输上也有很多用处。再看点云的传输，也是一样的，点云数量很大，可以考神经网络来帮忙，比如点云传输划分成三维的Tile，你看哪块我给你传哪块，来降低传输工作量。

新媒体编码时代：新应用

新应用，有线上抓娃娃，连抓娃娃这种应用都可以搞这种火，我相信新媒体应用可以搞得更火。

还有超高清，目前看到的有 4K、8K，也有人问我们需不需要 8K。我在八年前第一次看见 8K 的时就未曾怀疑过，一定有人需要。别说 8K，16K、24K 也有其必要性。对于全景视频来讲，我们还是需要更高的质量、更好的传输支持才会有更好的节目、更好的体验。

5G 与 VR，对于全景传输、动态点云的传输都可以提供更好的支持。

智能媒体的制作，纽约大学的研究人员 Ross Goodwin 训练了一个神经网络，给它输入几部电影它自己就可以写出剧本来，然后 9 分钟的电影就排出来了。也许未来我们需要只明星的脸，不需要明星来演。

最后总结一下，The best is yet to come，最好的 TA 会来临。我们要做的事情就是拥抱新技术，携手新媒体，研发新应用，开创新时代，我的报告就是这些，谢谢大家。

打开APP阅读更多精彩内容