本次我将从以下四个方面为大家分享有关最新一代VVC与AVS3视频编码标准的进展及关键技术特色等内容,希望可以为大家带来有价值的帮助。
1. 视频编码标准发展历程
上图展示了视频编码国际标准的发展历程,我们可以看到目前主要是以VVC、AV1与AVS3为主流发展趋势。
1.1 视频编码标准的定义
我们可以看到上图展示的视频编码流程,视频数据输入至编码系统首先会进行预处理工作,预处理后进行编码。编码完成后的数据会传输至解码模块并在完成解码之后进行预处理,最后输出目标视频。这里需要注意的是我们对视频编码标准的定义是对其中解码部分的定义,也就是定义码流的语法语义和解析解码过程。我们需要在制定标准的过程中通过技术筛选择优选择技术加入标准中从而避免解码过程的冗杂与低效,降低解码过程的复杂程度。也就是说可以在编码流程等其他环节完成的工作就不应当被加入解码流程中,如滤波等作为后处理可提高主客观性能水平。标准制定是一个技术协调统一优化的过程,无论是国际标准的制定还是我们以学术为目的的讨论都会引入一种技术竞争机制,选择最好的技术放入标准之中。
1.2 高效压缩标准的意义
那么现在我们需要更加高效地压缩标准吗?答案是毋庸置疑的。按照提升规律,编码效率每提升50%以上就会成为新一代标准,如早前的H.261、HAV1等其性能基本持平所以我们将其称为第一代,而像AVS和H.264等比前一代提升50%就可称其为第二代,至于AVS2、H.265等相对于第二代的提升达到50%我们就将其称为第三代。现在我们正在探索的AV3/VVC/H.266则为最新一代的压缩标准。我们需要更高效压缩标准原因可以通过Jevons悖论来解释:业界对节约煤炭研究不会降低煤炭需求,反而会因为提升了煤炭使用效率而加大对煤炭的需求。我们将这个理论过渡到压缩标准上来说,虽然我们尝试通过更好的压缩标准提高压缩效率降低带宽压力,实际上压缩效率的提高会进一步刺激视频用的需求不断增长,整体来看就是更高效的压缩标准推动了视频行业的持续发展。
1.3 多位度视频发展方向
我相信在未来4K/8K超高清、全景视频等先进视频应用会得到进一步发展。随着视频应用的不断演进,更高效的视频编码解决方案也会不断被提出。图中展示的全景视频、3D面部捕捉等都会帮助我们进一步提升视频应用的用户体验。我相信视频行业会得到长足发展,现在的标准在未来也会被更佳先进的标准所取代。
2. VVC国际标准进展情况
大家现在听到VVC、266新一代国际标准这些名词等都已不再新鲜,实际上对于新一代标准的讨论已多达12次会议,其中有包括快手在内的许多中国公司参与VVC标准的制定。追溯中国参与确立国际视频编码标准,最早可以追溯至1996年MPEG中国代表团参与MPEG标准的制定工作。虽然在1996年之前中国对国际标准制定的影响力有限,但在1996年之后有许多中国高校参与其中,有力促进了我国相关行业的发展。看到这么多中国企业参与其中我倍感荣幸,虽然我们在探索AVS,但同时我们也鼓励广大同仁参与国际标准的制订工作。
2.1 VTM关键技术
上图展示了VTM的诸多关键技术,其中蓝色与红色高亮的技术所带来的性能提升非常显著。当然我们对关键技术的考量离不开后端配套设施的跟进,我们在科学制定标准是一定需要在复杂度与性能间实现良好平衡,依靠技术的力量控制二者使其达到理想情况。我们使用的VTM2.0软件并将其性能提升用Random access量化,可以看到BDR-Y的性能提升为23%。将其结合图中左侧表格中的工具所带来的性能提升十分可观。这里需要注意的是,虽然表格中未高亮部分的工具所带来的性能提升在1%以下,但由于这些技术的编解码复杂度波动比较小,可显著降低复杂度,后期选择合适技术时我们也能考虑这些在复杂度上表现较好的工具。
2.2 新特色:从信号处理到深度学习
大家知道最近深度学习成为行业热门,人工智能开始为各行各业带来显著优化,深度学习同样也可以被用于优化视频编码。传统的视频编码主要基于信号处理实现预测、变换等,而现在我们更多采用统计分析、深度学习、神经网络等技术使视频编码登上一个全新的阶段。神经网络可以在编码领域大秀拳脚,同样标准制定也受其影响。大家可以从右侧的表单中看到现在许多企业与高校在参与标准制定过程中将神经网络纳入考量范围。
1)神经网络与预测编码
我们可以借助神经网络实现帧率预测、划分等重要工作,神经网络用与预测编码主要需要包括输出层在内的四层网络传统方法主要借助滤波器基于信号处理实现优化;而神经网络则是将节点数、相邻像素数等指标输入神经网络从而重构原始信号使其称为符合编码要求的信号,通过反复的训练寻求最优指标并确定为参数,在此之后这个训练完成的网络就可被用于帧率预测。除了帧率预测,神经网络也可以实现滤波等功能,但由于这一部分的研究仍需要进一步完善,后续还需配套硬件的跟进才能实现理想效果。从标准制定的角度来看,我们需要跟多的时间优化完善神经网络才能使其符合写入标准的严格要求。
2)神经网络与划分模式决策
谈到使用神经网络实现划分,我们需要明确不同划分模式需要哪些技术调整。这里我们的目标是基于四叉树与六叉树实现64x64的划分。具体步骤为首先提取整体划分深度特征来预测划分程度,也就是判断采用128×128进行预测还是64×64进行预测。如果选择128x128作为预测那么其深层次的预测准确度会大打折扣,而32x32的预测与128x128之间相差太远同样造成预测不准确,因此我们选择基于64×64进行深度划分预测,我们希望这种选择可以有效降低网络预测有偏差时对性能的影响。第二张图右侧列表展示的相关性能指标提升。
3. AVS标准回顾及应用情况
AVS标准的确立最早可以追溯至2002年的DVD专利事件,正是因为此事件推动了AVS标准的产生。经过几十年的发展AVS对推动技术创新、规范专利政策、推动行业生态建设做出了卓越贡献。从开始的盗版横行到现在的各种专利联盟日趋规范音视频产业年产值达到数万亿,人们对技术与产业价值的追求是全行业永恒的话题。无论是AVS标准还是国际标准,其目的都是推动技术创新的积聚与经济价值的最大化。
AVS的管理模式在其被提出时就有相关规范,主要由技术研发、包括专利池与专利授权在内的知识产权管理、产业联盟三部分组成。这种模式在十几年前具有非凡的创新意义,即使在今天看来也是十分先进的理念。现在AVS上百位工作组会员与产业联盟成员为整个标准提供有力支撑,帮助其持续优化发展。
上图展示的AVS在过去十六年经历的发展过程,从2002年AVS确立到2003年第一代标准AVS1基本完成,再到随后中国高清电视广播使用AVS标准,2012年启动AVS2标准的制定,2015年完成AVS2标准的制订,2016年AVS被批准为国家标准并成为广电行业标准,最近的2018年3月份AVS3正式启动。
从AVS的标准历程中我们可以看到,可以说在过去十六年AVS的发展取得了很好的成绩。
落实在应用上,中央电视台已在2018年10月启动了基于AVS2标准的4K超高清频道的播出。并且全国各地相继有地方电视台开通4K电视频道,进一步加快了技术转化为市场效益。
如果我们对比AVS2与HEVC便不难发现,无论是在主观质量还是用户体验上AVS2都略胜一些。
在编码其优化方面,上图展示的实验结果来自于我的学生优化的AVS2编码器,商用AVS编码器的性能还要高于上述结果。右上图我们可以看到AVS2的各项性能指标与其他标准下的编码性能对比可以说是不相上下, AVS2与x265相同性能条件下AVS2编码速度快一倍。
AVS标准在软硬件复杂度上的性能指标较为优秀,这也使其受到全行业的大力推广。上图展示的AVS2 4K广播应用的发展历程,可以看到全行业都对AVS2抱有强烈的兴趣并积极参与推广建设,这极大提高了AVS2的普及速度与应用范围。
4. AVS新一代标准关键技术
4.1 概述
2017年12月份我们启动了新一代标准AVS3的确立工作,2018年3月份开始第一次提案征集。预计在未来的2019年3月份发布第一版AVS3,其主要在编解码复杂度控制上做出显著优化并预计带来30% 的性能提升;2021年发布第二版,达到相对于第一版50%的效率提升并实现其在8K、VR、流媒体视频等领域的应用;最终我们希望实现的是在第二版基础上高达一倍的性能提升。从技术角度来看,我们的思路主要分为传统与智能两部分,传统部分仍然为块划分、运动预测、变换、滤波等传统策略,而在智能部分我们会划时代地使用基于神经网络的工具实现滤波、率失真优化等功能。
上图展示的是过去一段时间AVS3的会议进展与关键技术情况,到目前为止我们实现了相对于AVS2 10%的性能提升。
4.2 最新进展
现在AVS3标准的框架主要基于传统部分建立,其中有包含扩展四叉树、二叉树划分在内的块划分,包含仿射运动预测、自适应运动矢量精度、基于历史信息的运动矢量预测与大跨度预测编码在内的预测,包括基于位置的帧间残差与帧内预测多核在内的变换还有基于神经网络的滤波。
1)预测划分
我们现在所有的标准都是基于块划分实现的,随着标准的不断迭代,划分的效率也不断提升。其本质在于通过更高效的划分降低预测误差。这里我们努力实现的为自适应运动预测与复杂视频的内容高效处理,经过预测之后的图像内容有些平滑过渡有些带有边缘或纹理;若对其统一进行某一种变换效率势必会降低,我们期待通过自适应算法将进一步提升整个过程的效率,自适应的前提是我们需要将变换量化并考虑自身滤波对视频图像内容特性的适应。随着技术的演变,块划分方案的不断迭代意味着划分方案的不断改进,如正在进行的采用MTT实现的多种树型划分,其本质为使用更精细的划分方案解决更复杂的图像内容从而实现理想的效果。
AVS-M4409的划分过程基本上基于VCC的三叉树划分,同时包括了二叉树与四叉树。
而AVS-M4472则是二叉树层递归划分。除此之外AVS-M4472的编码单元CU、预测单元PU、变换单元TU大小一致。
接下来发展到了AVS-M4477则采用了衍生预测模式,使用非对称二分和对称四分模式,并且在四叉树或二叉树的叶子结点上不可递归,使用RDO决策变换形状,实现良好性能更高效率的划分。
最后的AVS-M4489所运用的扩展的四叉树划分结构EQT是我们最新采用的一种划分模式,此划分同二叉树层级一直并可递归,其CU、PU、TU大小一致,我相信还有更加高效的划分模式等待我们探索。
2)运动预测
在运动预测方面,第一代、第二代标准所使用的预测方案对平移运动效果较好,一旦运动状态变得复杂则容易失效;于是在第三代我们采用了合并模式,基于平移运动与向量块信息的组合更高效准确预测物体运动;而现在正在探索的仿射运动预测又把对复杂运动预测的效率提升至新的水平,我们也将其视为研究的目标。
我们现在所看到的运动矢量精度都是基于适量像素实现,出于对复杂度的控制我们需要一种较为理想的方案确定运动矢量精度。
其解决方案是在离预测运动矢量近的区域采用高精度运动矢量如1/8、1/4像素精度,而在离预测运动矢量远的区域采用低精度如1/2甚至整像素精度,从而有效提高运动矢量的编码效率。比如这里在这个小的窗口里边,运动比较预测比较接近,就用高精度的,到了窗口外边就用粗精度了,在AVS里边是做1/2和1/4这么一个切分这样的,可以有效降低编码复杂度的同时进一步提升编码效率。
在AVS3中有1/2、1/4、1、2、4 五种可选运动矢量精度,可以进一步提升编码效率。
相对于传统的平移运动,仿射运动补偿可以根据上图左侧方形顶点上的运动矢量推导其中每一个小方块的运动矢量并求解运动仿射参数,从而实现相对于传统仿射运动更加高效的预测。
第一代标准采用了空域多候选预测的方式实现运动矢量预测,在后续几代中加入了空时域预测模式。现在我们正在探索加入更多候选预测运动矢量以带来编码增益。
AVS-M4488采用了由已编码块信息建立候选运动矢量预测列表HMVP,通过多个块的运动矢量构建多个列表并移除冗余候选添加新的候选,并在编码/解码过程中维持HMVP的候选列表,可以有效提高运动矢量预测的编码效率。
还有对Skip、direct模式的运动矢量进行更精细更准确的调整,也能带来明显的编码效率提升。
将编码与传输结合实现大跨度预测编码是我们正在探索的一件较为超前的方案。我们将时间上大跨度的知识图像作为帧间预测的参考图像,在系统层描述参考关系,在压缩层修改高层语法语义,并基于类似P2P传输原理实现视频内容之间的跨序列参考。此工作需要系统层的传输支持,大跨度预测编码可以带来30%以上的压缩效率提升。
3)变换
第一代标准使用的变换模式为DCT,随后的第二代标准则采用了ABT。DCT在相关性较强时较为适用,而第三代标准所使用的TU与DST则更适应信号的复杂特征变化,现在我们正在探索的变换方案为多核变换。
帧内预测变换这块,行列变换组合的变换形式,早期AVS也做过很多的相关的研究,通过率失真优化来选择变换。
帧间残差变换是基于位置变化的,在不同块的位置其参数特性也有所区别。我们可以选择性变换从而进一步提高变换的编码效率实现性能提升。
4)环路滤波
在第一代标准中没有环路滤波而只是将其作为后处理的一部分。在第二代标准中我们使用了对块边界的Deblock环路滤波,从H265这块,引入了SAO,原理上就是从几种边缘看一看是不是有了较大的量化失真,给它加一个补偿,降低量化失真;这时候也还有有另外一中环路滤波就是ALF,对于这一块儿关于滤波器的形状研究更多,加了好多滤波器形状,去进一步提高这个滤波器效果去,这是滤波部分的一个演变。
关于滤波,我们还探索了非局部结构相似滤波,其主要是依据统计局部多个像素发生失真得出的规律特性推断更优的全局优化策略。虽然此方案复杂度较高但效果明显,全局优化处理能够带来明显的效率提升。可能目前全局滤波方案还难以被标准采用,我们仍在探索更好的全局滤波方案。
关于智能编码与智能滤波部分。由于滤波是比较独立的模块,传统滤波主要输入重构的图像即可,在这里我们同时输入了相关编码信息之后发现还能进一步提高滤波性能,这说明滤波性能提升空间还是比较可观的。
上图展示的是AVS3 TAVS2.1的性能测试结果,可以看到AVS3相对于H.265已有10%以上的性能提升,预期第一阶段将达到30%,我们对AVS3未来的发展充满信心。
我们可以看到新一代视频编解码标准的进步十分显著,效率提升非常明显,我们相信新一代视频编码标准具有蓬勃生命力。AVS标准在技术创新、专利政策与生态建设方面都有较为全面的布局,新一代AVS标准未来可期。
全部0条评论
快来发表一下你的评论吧 !