超高清时代的编解码处理方案

SnWc_livevideos 2023-09-06 1872

音视频及家电

749人已加入

描述

低延迟的互动直播、连续上划的短视频、1080p的电影电视剧……在超高清视频轻而易得的当下，我们对于低清、卡顿视频的忍耐度越来越低。据《2022年中国网络视听发展研究报告》披露，截至2021年12月，我国网络视频(含短视频)用户规模达9.75亿，较2020年12月增长4794万，占网民整体的94.5%。 这背后，是存储、带宽和算力成本的叠加压力。 如果你在看一部超高清电影时，想要追求极致的视听体验，那么，视频背后则需要16倍的算力，12倍的存储和10倍的带宽。如果是100个人同时观看呢？这时，我们急需一套成本低廉、压缩率高且有一定增强能力的实时直播媒体处理平台，以及它背后的王牌——编解码处理方案。

鱼和熊掌，可以兼得

根据声网的数据分析，高清画质相比标清画质，频道内用户留存时长高10.3%。高清画面能让观众更愿意在平台上停留，增强用户粘性。可高清视频不是说做就能做的，这背后的成本压力不容小觑。为了应对视频流量的不断增长，视频标准组织一直在推动视频编码技术的持续迭代。从MPEG2开始，视频编码标准压缩率大约每10年提升50%，以2021年推出的H.266为例：相对于H.265压缩率提升50%，但其编码计算成本提升15倍。此时，面对10倍以上的新一代编码成本，传统的CPU能力已经难以应对，摩尔定律的连带效应也让其难以迸发出高性能的能力。既然CPU无法做到，那么采用GPU和AI借力呢？

gpu

根据相关企业的公开财报，视频转码和带宽的成本已经占据公司全年收入的10%。

AI的确是一个不错的帮手。这是一套完整的视频转码推流的流程图，我们可以看到，在整个红色框线的过程中，AI已经完全可以接管内容审核、理解、编辑和转码的工作。但在给视频编解码带来画质提升的同时，AI所需的算力成本也不容小觑。 而GPU高昂的成本是令人望而生畏的，企业不敢一次性囤积大量GPU卡，更别提GPU转码无法做到和CPU一样的高压缩率。 面对以上的需求痛点，原有的单一CPU或GPU架构形态已经无法完全满足。两者相对比，并没有一个明显的赢家。那么问题来了，是否有一种方法可以在不提升成本的同时，将二者结合起来呢？还真的有。我们都知道，视频编码的硬件平台百花齐放，其中包括了CPU、GPU、专有芯片甚至FPGA……但对于视频转码来说（尤其是对访问量大的热数据转码），CPU仍然是第一选择，正是因为CPU有两个不可替代的优势：1.高灵活性；2.高复用性。 那么，如果将AI嵌入到转码中，是否可以在CPU上实现整条转码方案呢？在今年年初发布的英特尔第四代至强可扩展处理器中，英特尔进行了一次重大革新：通过内置数个硬件加速器应用于不同场景的性能加速。其中，AMX的AI加速彻底填补了CPU编码中空缺的一块，构建了全链路智能化编码。

gpu

在英特尔的第四代至强上，每一个物理核心上都有这样的一个内置的AMX加速单元。所以，谁说鱼和熊掌不能兼得呢？

连续四年蝉联第一，腾讯云怎么做到的？

正所谓实践出真知，腾讯云的至强实践之路就是一个很好的例子。随着4k/8k视频逐渐走入千家万户，消费者们的观看习惯逐渐向高清、超高清迈步。作为高清视频领先的服务商，腾讯云的选择就变得十分重要。

在技术选型方面，正是CPU不可替代的优点让腾讯云决定摒弃硬件方案的选型，转为纯CPU编码器的处理。那么，第四代至强是如何助力腾讯云4k/8k超高清解码的？

从降本谈起 超分、算力与升级前文提到，CPU的高灵活性使得CPU的升级几乎没有成本，纯CPU编码器可以通过算法设计达到比硬件方案更高的压缩率，同时软件方案的升级更加方便。如：原硬件芯片支持8K265编码，后续若想要升级支持266编码，对于硬件来说需要重新设计，软件则只需要进行代码升级即可，系统可以持续迭代支持最新的能力。纯CPU方案使用的是通用算力，当不进行8K转码的时候，可以很方便的释放这部分资源进行通用CPU算力利用。在进行4k/8k编码时，通过全链路智能化编码可以使得开发者可以专注于算法创新，而不用考虑如何部署等细节，开箱即用。

流程合并，降低运维成本：由于超分部分算力要求非常高，需要通过GPU来辅助，但这样也会出现一些问题：将高要求的AI负载迁移到GPU上，会导致编码和前处理完全分离。这就像在一间屋子里解码——发送到另一间屋子进行前处理——再转回来编码。不仅让流程变得冗长，也对运维造成了极大的负担，数据的反复调度也造成了一定的时延的增加。CPU全链路智能化编码将该部分编入CPU中，成功降低了运维成本。

gpu

因为软件的灵活性，腾讯云的8K实时转码系统能够支持所有主流视频编解码标准。在2021年MSU O264、V265以及2022和2023的MSU H.264、H.265和AV1中，腾讯云都遥遥领先。 精细化控制 AMX、INC(Intel N)和精度

BF16和INT8的高算力对将AI从GPU迁到CPU之上确实有很大的帮助，但如何保证精度呢？Intel Neural Compressor (INC) 内置了专门用于精度的校正算法。作为开发者，只需要做三件事：输入模型、输入数据集和输入精度要求即可。

除此以外，在前处理过程中，第四代至强通过智能化编码对CPU做核心绑定，将整体转码流程精细化控制。比如，解码、添加水印、转分辨率、编码等等操作都分配到指定CPU上进行，尽量保证相互依赖的操作都在同一个CPU。 AI推理能力大幅提升：画质增强等视频前处理需要强大的算力支持。这是英特尔和腾讯云的实际案例。在视频增强和目标检测这两个场景下，使用了第四代至强AMX优化的AI推理性能相对上一代平台分别提升了1.86和1.95倍。

gpu

与此同时，精度损失被控制在可接受的范围，这也使得用户在CPU上实现了全链路智能化编码，大幅降低了部署成本和运维成本。

“芯”启智变，携手共建

人眼永远渴望最清晰、最真实的图像和视频，人们对清晰度的追求也是永无止境的。无论人工智能带给科技进步的速率有多快，数字化与云计算都应是企业应对持续变化的必备解决方案。在9月7日2023腾讯全球数字生态大会上，英特尔将作为深度合作伙伴举办主题为“芯”启智变，携手共建的专场分论坛。（时间：14:30 地点：1F CC105C）在英特尔分论坛中，您可以了解到英特尔与腾讯携手共创二十余年来，在人工智能、大数据、科学计算、音视频等方面全方位深度合作的多项新成果，以及构建高能效、高可靠、易扩展的新一代信息技术智能基础设施，助推数字经济和实体经济深度融合的最新进展。

同时，英特尔还将分享其最新的产品及技术蓝图，包括在第四代英特尔至强可扩展处理器和Hanana Gaudi2等先进硬件和优化软件支持下的英特尔AI大模型解决方案，以及英特尔云边一体的智能网络解决方案。此外，在本次大会中，英特尔也将设置专场展区，通过云及AI产品解决方案、云到端解决方案、会议室解决方案及边缘产品解决方案4大区域，共计展出15个先进方案。 站在产业数字化全新的里程碑上，如何看待人工智能、云计算、大数据带给未来的无限想象？

编辑：黄飞

打开APP阅读更多精彩内容