数据中心为什么要部署FPGA?

可编程逻辑

1366人已加入

描述

本文来自“从硬件到软件,FPGA国产替代分析(2023)”。

FPGA 芯片具有灵活性高、应用开发成本低、上市时间短等优势使其应用场景覆盖了包括工业控制、网络通信、消费电子、数据中心、汽车电子、人工智能等广泛的下游市场。

各大应用领域占比整体保持稳定,数据中心更具增长动力。根据 Xilinx 财报,2019-2021 年下游应用占比格局几乎未发生大规模变动,其中数据中心营收占比分别为 7%、9%、10%,相较于其他领域而言具备更快的增长速度。

2022 年,国际龙头厂商 AMD 和 Intel 的 FPGA 业务在数据中心领域大放异彩,成为其业绩增长的有力助推。AMD 对 FPGA 龙头 Xilinx 的收购大大推动其嵌入式部门和数据中心的业绩增长,两部门产品营收从 2021 年的 39 亿美元增长至2022 年的 106 亿美元;Intel FPGA 业务助推 DCAI 部门(Data Center and AI Group,数据中心和人工智能事业部)实现 14%的营收增长。

FPGA 在数据中心领域未来有望占据更多市场份额。英特尔中国研究院院长宋继强曾表示,2020 年 CPU+FPGA 异构计算将占据云数据中心市场的 1/3。据Semico 研究公司预测,全球数据中心加速器(包括 CPU、GPU、FPGA 和 ASIC)市场规模将从 2018 年的 28.4 亿美元增长到 2023 年的 211.9 亿美元,年复合增长率高达 49%。其中 FPGA 加速器在 2018 年只有 10 亿美元,到 2023 年将超过50 亿美元,其增长驱动力主要来自企业级数据负载加速应用。

 

FPGA

 

#1:数据中心为什么要部署 FPGA?

FPGA 芯片在数据中心领域主要用于硬件加速,在云服务器厂商中已有广泛部署。数据中心使用 FPGA 芯片代替传统的 CPU 方案后,处理其自定义算法时可实现显著的加速效果。因此近年来,微软 Azure、亚马逊 AWS、阿里云的服务器上都开始部署 FPGA 加速器用于运算加速。在云计算大面积应用的背景下,未来数据中心对芯片性能的要求将进一步提高,更多数据中心将采纳 FPGA 芯片方案,这将提高 FPGA 芯片在数据中心芯片中的价值占比。

 

FPGA

 

(1)芯片级别的能耗限制与暗硅效应问题

芯片制造工艺所遇到的瓶颈问题,始终影响着芯片设计的技术路线选择。

在半导体发展早期,Dennard 缩放定律(1974 年提出,其内容为:晶体管功耗会随着尺寸变小而同比变小,使相同硅片面积下总功耗保持不变)指引工业界不断实现工艺迭代,在每个新的工艺节点上使用更多的晶体管、更快速率和更低功耗的晶体管,证明开发每个新工艺节点所需的巨大成本具备商业合理性。

而Dennard 缩放定律的停滞(当摩尔定律使晶体管尺寸下降到纳米级时,量子隧穿等现象导致晶体管漏电,使晶体管的静态功耗不减反增,功率密度上升,散热问题加剧)导致工业界竞相向多核架构发展,多核架构实现了并行和多任务工作负载的性能扩展,仍然能够保证在商业合理范围内提升处理器性能。

但随着多核缩放的优势开始消退,在摩尔定律逼近极限之前,多核的技术路径已面临新的瓶颈——由于芯片散热技术和供电技术的限制,以及成本限制,可承受的微处理器功耗在近 10 年的发展历程中并没有太大变化,这导致在 10nm 或更先进工艺线下,以摩尔定律增加的晶体管在动态运行期间必须通过关闭来实现功耗控制,即暗硅(Dark Silicon)问题。

 

FPGA

 

异构计算是当前高性能计算的解决方案之一。在暗硅趋势与成本压力下,CPU+GPU 和 CPU+FPGA 异构计算是在通用性、生产成本和功耗下较为折中的方案。随着先进工艺生产成本降低, 并且大量标准化处理器 IP 成熟的情况下, 不排除高性能计算未来也会发展出在单个SoC芯片中大量集成不同类型加速器件的其他异构方式。

(2)数据中心级别的能源成本与散热压力问题

超算数据中心性能飞速提升,能源耗用问题亟待解决。在今年举行的 ISSCC 2023 大会上,AMD CEO Lisa Su 指出,目前主流服务器的性能表现每 2.4 年实现翻番,GPU 单精度浮点(Single Precision FLOPs)每 2.2 年性能实现翻番。

 

FPGA

 

以此趋势增长至 2035 年,最高性能超算系统可能会从现在的 Exascale 量级(10 的 18 次方)增长 1000 倍,达到 Zettascale 量级(10 的 21 次方)。一座ZettaScale 数据中心的能耗可能会达到 500MW,几乎等同于一座核电站的放电能力(1GW)的一半,远超过一座 Exascale 数据中心 21MW 的能耗量。

 

FPGA

 

GPU 能够实现更高的并行计算峰值性能,但 FPGA 在功耗方面的优势对于解决数据中心能源问题至关重要。以 Xilinx 与英伟达的旗舰产品作对比,基于Versal AI Core 的 VCK5000 Versal 开发卡比英伟达旗舰 GPU,能耗比和性价比均提升 1 倍,能够实现 90%的计算效率和低于 100W 的功耗(板卡层面),因此是为云端应用和边缘应用实现 CNN、RNN 和 NLP 加速的理想开发平台。Versal系列针对 AI 应用设计的全新 ACAP 架构以及其性能表现上的优势,是 AMD 与之战略合作的重要基础。

 

FPGA

 

#2:数字芯片行业巨头的异构战略:CPU+GPU or CPU+FPGA?

英伟达作为 GPU 龙头,率先推出 CPU+GPU 异构 Superchip。英伟达率先于 2022 年 GTC 大会提出将 Grace CPU 和 Hopper GPU 组成的 Superchip,并于时隔一年后的 GTC 2023 手持展示芯片实物,该 Superchip 采用 900GB/s 的高速一致性接口对 Grace CPU 和 Hopper GPU 进行互连,非常适合处理大型数据集。随后,英伟达于 2023 年 5 月 COMPUTEX 大会上宣布生成式 AI 引擎 NVIDIADGX GH200 已投入量产。NVIDIA DGX GH200 是将 256 个 NVIDIA GraceHopper 超级芯片完全连接到单个 GPU 中的新型 AI 超级计算机,支持万亿参数AI 大模型训练。

AMD 在 CPU+GPU 异构领域和英伟达正面较量。2023 年 6 月,AMD 推出了早在年初 CES 2023 大会上披露的数据中心 APU(加速处理器)Instinct MI300系列,其中“GPU+CPU”架构(APU)的 MI300A 现已开始提供样品,另外 MI300X和 Instinct Platform 则将在 23Q3 提供样品,Q4正式推出。据 23年 5月 AMD 23Q1电话会议披露,MI300 将在 23Q4 开始产生销售收入。MI300 是市场上首款“CPU+GPU+内存”的一体化产品,在异构计算新格局之下,AMD 在这一快速增长的市场上向英伟达的垄断地位发起挑战。

此外,AMD 也在 CPU+FPGA 异构领域积极布局。2022 年完成了对 FPGA行业龙头 Xilinx 的收购后,在云计算、边缘计算和智能设备市场完成了重要战略部署。除了重磅推出的 Instinct MI300 系列产品、以及传统优势产品 Ryzen 系列处理器外,AMD 依托 Xilinx FPGA 的优势,吸纳了 Xilinx 原有的数据中心产品——Zynq UltraScale+ MPSoC 芯片、自适应数据中心平台 Versal AI 和相关 SoC 产品,并推出了基于 AMD XDNA – Versal AI Core 架构的数据中心加速器卡 AlveoV70,积极打造 CPU+FPGA 组合优势。

Intel 在数据中心产品方面重点发力 CPU+FPGA 战略。自 2015 年完成对Altera 的收购后,Intel为其成立专门的PSG 部门(Programmable Solution Group,可编程解决方案事业部),2022 年通过业务重组将 FPGA 业务并入 DCAI 部门(Data Center and AI Group,数据中心和人工智能事业部),形成芯片组合来竞争数据中心与 AI 市场。23Q1 的投资者大会上,Intel 发布了 2023-2025 年 DCAI架构图,展示了包括 CPU、GPU、FPGA 等芯片的发展规划。其中,Intel 计划于2023 年推出 15 款 FPGA 新品,包括 Stratix,eASIC 和 Agilex 系列,刷新了 IntelFPGA 的年度推新纪录,有望为 CPU+FPGA 异构打开新格局。

此外,Intel 也在数据中心着手布局 GPU 产品线,曾计划推出 CPU+GPU 异构产品。Intel 下一代数据中心 GPU Falcon Shores 原计划为一款采用混合架构的XPU(CPU+GPU),目前已将其改为纯 GPU 解决方案,计划于 2025 年发布。

根据 Frost&Sullivan 数据,全球 FPGA 市场规模从 2016 年的约 43.4 亿美元增长至 2020 年约 60.8 亿美元,年均复合增长率约为 8.8%。预计到 2025 年,全球 FPGA 市场将超过 120 亿美元。在中国市场,预计 2025 年 FPGA 芯片销售额将达到 332.2 亿元,对应 2021 至 2025 年年均复合增长率将达到 17.1%;预计 2025 年中国市场 FPGA 芯片出货量将达到 3.3 亿颗,2021 至 2025 年年均复合增长率将达到 15.0%。

长期来看,根据 FPGA 龙头厂商 Intel(Altera)于 2023 年年中给出的市场预测,2023 年市场增长预计将超过 16%,未来 5 年的增长势头向好,预计将继续保持 10%以上的复合年均增长率。由 AI 行情引发的大模型热潮仍将持续推动AI 服务器对于算力部署的需求,FPGA 有望依托于高灵活性、低功耗等特征持续受益于 AI 服务器市场的增长。

编辑:黄飞

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分