基于Arm架构的珠峰芯片加速极致视频体验

描述

作者:安谋科技 (Arm China) 高级软件产品经理 杨喜乐

视频编解码技术作为支撑超高清视频及泛音视频产业发展的基石,其重要性愈发凸显。H.264/AVC 是目前广泛使用的编解码标准,能够在较低的数据速率下提供高质量的视频流,是在线视频和移动端视频的理想选择;H.265/HEVC 进一步提高了压缩效率,在传输高清视频流和 4K 视频时所需的带宽大约是 H.264 的一半。然而,新一代编解码技术在节省带宽的同时,也对算力提出了更高的要求。

尽管专用视频加速卡(如 ASICs)和 GPU 在特定任务上展现出卓越性能,但通用服务器 CPU 因其出色的灵活性、广泛的适用性以及更高的性价比,正在成为视频转码场景中的主流选择。随着多核 CPU 架构和视频编解码技术的不断进步,可以预见 CPU 在视频转码领域的应用将更加广泛。

在本文中,我们将探讨基于 Armv9 架构的中兴微电子“珠峰 1.0”芯片在 x264/x265 视频转码场景下,所展现的可扩展算力和稳定核心,并通过与主流 x86 架构产品相比,展示珠峰芯片所具备的性能和能效优势。

x264/x265 基准测试

“珠峰 1.0”是中兴微电子发布的首颗领域定制融合处理器,搭载 128 个核心,主频最高达到 3.1GHz。该芯片可提供指令集加速,比如 SVE/SVE2 等向量计算技术等,并在视频转码等高算力场景中能够让工作负载以可预测的方式稳定运行。与此同时,依托于 Arm 成熟坚实的软件生态和主流视频编解码库中基于最新 Arm 架构指令的优化,珠峰芯片可以为视频转码和其他云工作负载提供卓越的性能和能效收益。

x264 和 x265 作为主流的开源编解码器实现在业界得到了广泛的认可和应用,我们将通过实测 x264/x265 转码场景下的编码速度(每秒帧数,FPS)来对比珠峰芯片和主流 x86 产品(英特尔 IceLake[1]、英特尔 Sapphire Rapids (SPR)[2] 和 AMD Milan[3])在多线程和整个 socket 配置下的性能和吞吐。

处理器

表 1:珠峰芯片和主流 x86 架构产品平台配置

(配置: 内核: 6.0; GCC 编译器: 12.2;

x86 开启 turbo,1 线程 = 1 逻辑 CPU)

测试视频:

https://ultravideo.fi/video/Bosphorus_1920x1080_120fps_420_8bit_YUV_Y4M.7z

测试命令脚本:

x264:

for cpu in ${cpulist[@]};do

cmd = numactl -C $cpu ${x264_DIR}/x264 -o   output_${cpu}.mkv 

${input_video_DIR}/Bosphorus_1920x1080_120fps_420_8bit_YUV.y4m   --preset medium --

frames 600 --threads 1 &

done

x265:

for cpu in ${cpulist[@]};do

cmd = numactl -C $cpu ${x265_DIR}/x265 -o   output_${cpu}.mkv    

${input_video_DIR}/Bosphorus_1920x1080_120fps_420_8bit_YUV.y4m   --preset medium --

frames 600 --no-wpp --pools ',' --frame-threads 1 &

done

<<< 左右滑动查看完整脚本 >>>

八线程转码测试

处理器

图 1:单线程下 x264 的平均转码速率对比

处理器

图 2:单线程下 x265 的平均转码速率对比

我们可以看到,在八线程的配置下,珠峰芯片在 x264/x265 转码场景中相比 x86 架构芯片平均每线程分别有 1.34 倍和 1.17 倍的性能优势。

单 socket 转码测试

处理器

图 3:单 socket 下 x264 转码速率对比

处理器

图 4:单 socket 下 x265 转码速率对比

在单 socket 的配置下,珠峰芯片在 x264/x265 转码场景中相比 x86 架构芯片单 socket 分别有 2.96 倍和 2.54 倍的性能优势。

转码能效比

除了拥有最佳的转码性能外,基于 Armv9 架构的珠峰芯片非常注重性能和功耗的平衡,卓越的能效可以极大地减少视频转码中产生的碳足迹。下面是珠峰芯片和主流 x86 架构产品 (IceLake、SPR 和 Milan)热设计功耗 (TDP) 的比较:

处理器

图 5:热设计功耗 (TDP) 对比

结论

在 x264/x265 视频转码的场景下,我们可以清楚地看到基于 Armv9 架构的中兴微电子珠峰芯片具备强劲的可扩展算力和稳定核心,测试结果显示,与主流 x86 架构产品选择相比(如英特尔至强第四代 Sapphire Rapids),该芯片提供了卓越的性能和能效,在运行 x264 时性能优势高达 2.08 倍,而在运行 x265 时性能优势高达 1.79 倍;此外,能效提升高达 1.35 倍。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分