描述
根据谷歌统计的数据,由于去年疫情带来的增长加速,再加上视频会议、AR/VR与云游戏等应用的兴起,视频服务已经占据整个互联网60%以上的流量。而这也使得服务器端视频处理能力的要求在不断拔高,处理的对象已经不再是1080p 30帧的短视频了,而是对4K以上的HDR视频进行实时转码。
除了开发更高效的视频编码(VP9、AV1等)和媒体框架之外,硬件平台也是不可或缺的一环,市面上也涌现了不少大相径庭的硬件方案。传统的CPU在新编码上早已显得吃力,而GPU虽然性能优越,但计算流量过大,服务器的成本要高出一截,因此不少云服务厂商也开始推出专用硬件来进行视频处理。
传统GPU
GPU作为最常用的视频处理硬件,也理所当然地成为了数据中心视频转码的选择之一。目前常用于视频转码的最新英伟达GPU为T4。该卡包含320个图灵Tensor核心和2560个CUDA核心,单精度算力达到8.1 TFLOPS。英伟达称在独立的硬件转码引擎下,与前代GPU Tesla M60相比,其转码性能提升至2倍,同时支持38个1080p的视频流。
英伟达T4 / Nvidia
除了英伟达之外,AMD也有可用于视频编码的Radeon Pro V520 GPU,根据全球最大的云服务厂商亚马逊AWS公布的数据,其通用图形渲染性能要高出英伟达T4 40%,单卡最多支持6个1080p60的视频流同时编码。
赛灵思媒体加速卡
除了传统的通用GPU方案外,另一个常见的方案就是采用专门的视频处理加速卡,比如赛灵思于去年发布的数据中心媒体加速卡Alveo U30,专用于高密度的视频转码应用。该卡的APU采用了4核Arm Cortex-A53,RPU采用了双核Arm Cortex-R5F,而GPU采用了Arm Mali-400 MP2。U30支持到8路1080p60视频流的编码,而且在功耗和灵活性上优于CPU+GPU的传统方案。
Alveo U30加速卡 / Xilinx
今年9月,亚马逊AWS开放了新的EC2 VT1实例,该实例至多可以扩展至8张赛灵思Alveo U30加速卡。根据亚马逊AWS公布的数据,基于GPU(英伟达T4 GPU+英特尔Cascade Lake CPU)的G4dn实例相比,在H.264/AVC和H.265/HEVC的实时视频编码上,VT1所需的成本比后者低上60%,与基于CPU(AMD EPYC 7002)的C5实例相比,成本更是低上60%。
除此之外,赛灵思还会提供其视频转码SDK,不仅整合了FFMpeg,更有媒体加速API与U30上的编解码器直连,今年年末还会推出对于另一框架GStreamer的支持。
亚马逊不仅推出了基于这类加速卡的云服务,旗下的直播平台Twitch也在使用这类实例。Twitch称计划将VT1实例用于数百万计的直播转码,以此实现在更密集的串流和低延迟下,不牺牲视频的压缩或画质。
谷歌定制VPU
作为仅次于亚马逊AWS和微软Azure的云服务厂商,谷歌在其公共云服务上依然在使用传统的GPU方案。但坐拥全球最大的视频平台Youtube和成立不久的云游戏平台Stadia,谷歌决定在这些服务上采用自己的硬件来加速视频处理。
搭载了两个VCU芯片的PCBA / Google
作为视频编码标准VP9的开发者,谷歌想要同时实现H.264和VP9支持,以及多输出的转码,并在直播与离线转码中达到理想的速度与质量,还能全面控制软件算法进行调整,因此谷歌决定开发自己的硬件VCU芯片。
谷歌基于该硬件打造的系统具有两张VCU加速器,每个加速器内置了10个VCU编码器核心,每个核心都能够实时编码2160p的视频流,使用三个参考帧时可达60FPS。经过在H.264二次编码上的输出对比,8块VCU芯片的性能是4块英伟达T4性能的两倍以上,是英特尔Skylake CPU的8倍以上,在VP9编码上的性能差距更是可以拉到20倍。
结语
在视频处理方面,尤其是视频编码转码上,CPU+GPU的通用传统方案已经在失去其优势,专用的加速器方案明显在成本和性能突破上走的更快一些。这种趋势在数据中心的其他应用领域上也在慢慢显现,比如深度学习、AI等,专用加速器的方案更适合针对性更强的场景。随着云服务厂商不断推出更多的专用实例,GPU在视频处理上的地位很可能会被专用加速器给替代。
打开APP阅读更多精彩内容