AI芯片成为耗电大户,负载功耗接近一个小国家?

描述

如今,对人工智能的需求巨大。法国施耐德电气公司估计,2023年人工智能工作负载的功耗总计约为4.3吉瓦(GW),略低于塞浦路斯国家2021年的功耗( 4.7吉瓦)。该公司预计,人工智能工作负载的功耗将以26%至36%的复合年增长率(CAGR)增长,这意味着到2028年,人工智能工作负载的功耗将从13.5吉瓦增至20吉瓦,这比冰岛2021年消费的电力消耗还要多。

巨大的电力需求

据施耐德电气称,到 2023 年,所有数据中心的总功耗预计将达到 54 GW,其中人工智能工作负载将占到 4.3 GW。在这些人工智能工作负载中,训练和推理之间的分配特点是 20% 的功耗用于训练目的,80% 分配给推理任务。这意味着人工智能工作负载将占今年数据中心总功耗的约8%。

展望 2028 年,施耐德预计数据中心的总能耗将增至 90 吉瓦,其中人工智能工作负载的能耗将达到 13.5 吉瓦至 20 吉瓦。这表明,到 2028 年,人工智能可能消耗数据中心总用电量的 15% 至 20% 左右,这表明数据中心人工智能工作负载的功耗比例在五年内显着增加。根据施耐德电气的估计,训练和推理之间的分布预计将略有变化,训练消耗 15% 的电力,推理则占 85%。

AI GPU 变得更加“饥饿”

人工智能数据中心功耗不断上升的主要原因是人工智能工作负载的加剧、人工智能GPU和人工智能处理器的进步以及其他数据中心硬件的要求不断增加。例如,Nvidia 2020 年的 A100 功耗高达 400W,而 2022 年的 H100 功耗高达 700W。除了 GPU 之外,AI 服务器还运行耗电的 CPU 和网卡。

AI 工作负载,尤其是与训练相关的工作负载,需要大量计算资源,包括配备 AI GPU、专用 ASIC 或 CPU 的专用服务器。人工智能集群的规模受人工智能模型的复杂性和规模的影响,是功耗的主要决定因素。更大的人工智能模型需要更多数量的 GPU,从而增加总体能源需求。例如,拥有 22,000 个 H100 GPU 的集群使用大约 700 个机架。基于 H100 的机架在安装八台 HPE Cray XD670 GPU 加速服务器时,机架总密度为 80 kW。施耐德电气指出,因此,整个集群需要大约 31 兆瓦的电力,这还不包括冷却等额外基础设施需求所需的能源。

这些集群和 GPU 在整个训练过程中通常几乎满负荷运行,确保平均能耗几乎与峰值功耗相同。该文件指出,大量AI集群的机架密度在30kW到100kW之间,具体取决于GPU的数量和型号。

网络延迟在人工智能数据中心的功耗中也起着至关重要的作用。复杂的网络基础设施对于支持分布式训练过程中强大的 GPU 所需的高速数据通信至关重要。对高速网络电缆和基础设施(例如能够支持高达 800 Gb/s 速度的电缆和基础设施)的需求进一步增加了总体能耗。

鉴于人工智能工作负载需要高耗电的 ASIC、GPU、CPU、网卡和 SSD,冷却构成了重大挑战。鉴于高机架密度和计算过程中产生的巨大热量,有效的冷却解决方案对于保持最佳性能并防止硬件故障或失效至关重要。与此同时,空气和液体冷却方法在功耗方面也“昂贵”,这就是为什么它们也对用于人工智能工作负载的数据中心的功耗造成很大影响。

一些建议

施耐德电气预计AI硬件的功耗不会很快降低,公司充分预计AI机架的功耗将达到100kW或更高。因此,施耐德电气对专门处理人工智能工作负载的数据中心提出了一些建议。

施耐德电气特别建议从传统的120/208V过渡到240/415V配电,以更好地适应人工智能工作负载的高功率密度。对于冷却,建议从空气冷却转向液体冷却,以提高处理器的可靠性和能源效率,尽管沉浸式冷却可能会产生更好的效果。使用的货架应更宽敞,其规格例如宽度至少为 750 毫米,静态承重能力大于 1,800 公斤。  







审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分