英特尔®Stratix®10NX FPGA为AI工作负载提供显著改进

描述

对许多 AI 工作负载而言,完全实现 GPU 厂商所宣称的计算容量并非易事。即使对一般矩阵乘法 (GEMM) 等高度并行计算而言,GPU 也只能在某些大矩阵条件下实现高利用率。FPGA 提供了不同的 AI 优化硬件方法。

不同于 GPU,FPGA 提供了独特的细粒度空间可重配置性,支持将每个功能的输出直接传送至相关功能的输入,以满足其需求。该方法可提升灵活性,支持特定的 AI 算法和应用特征,从而提高可用 FPGA 计算功能的利用率,进而提升性能。专用软核处理器(也称为叠加)支持与处理器类似的 FPGA 编程,即 FPGA 编程完全通过软件工具链进行。这种编程方法可消除 FPGA 特定的硬件复杂性问题。

我们对全新英特尔 Stratix 10 NX FPGA 进行了首次性能评估,并将其与 Nvidia T4 和 V100 GPU 进行了比较。此次性能评估采用了 2020 年 IEEE 国际现场可编程技术会议中一篇论文所公布的结果,考察了一系列实时推理工作负载的运行表现。我们使用被称为神经处理单元 (NPU) 的软核 AI 处理器叠加实现方案部署了支持 FPGA 的工作负载,工具链支持以软件为中心的 FPGA 编程,无需调用 FPGA 特定硬件 EDA 工具。

结果显示,相比于测试的 GPU,英特尔 Stratix 10 NX FPGA 能够为这些 AI 工作负载提供显著改进的利用率和性能。

编辑:jq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分