氟化液 | 液冷在AI芯片降温的应用

描述

AI大模型

当前各种AI大模型如火如荼,推动全球算力需求呈现爆炸式增长,伴随着算力需求的增长,全球电力、功耗方面的成本不断增加。据相关统计,AI算力下主流芯片功耗正不断增加,如Intel的多款CPU芯片的TDP已突破350W,NVIDIA的H100系列GPU芯片TDP更是达到700W,B100 TDP或将达到1000W左右。英伟达GTC大会上,英伟达CEO黄仁勋发布了更高性能的GPU芯片——基于Blackwell架构的B200以及超级芯片GB200。由于功耗太高,液冷的散热方式成为系统的标配。

AI大模型

英伟达还推出了超级计算机机柜DGX GB200 NVL72,拥有18个GB200节点机架,每个节点搭配2个GB200 GPU。黄仁勋表示,一个DGX GB200 NVL72机柜可以训练27万亿参数的模型。但由于功耗过大,所以也必须要采用液冷的方式进行冷却。

AI大模型

 

AI大模型

(图片来源于网络)

 

目前PC行业应用水冷技术越来越多,高端电脑基本上都是采用水冷散热,相比普通的风冷散热,散热效率上最大提升50%-60%,噪音也比普通风冷要低。

液冷以接触方式划分的话可分为接触式液冷和非接触式液冷其中浸没式、喷淋式液冷等终端和载冷液直接接触的为接触式液冷,而通过冷板间接和终端连接,利用换热冷板和终端的热交换带走热量的称为非接触式液冷,我们在PC机上应用最多的就是这种非接触式液冷,冷头固定接触在CPU表面,通过水的流动,在冷头内部跟CPU进行热交换,带走CPU产生的热量。

AI大模型AI大模型AI大模型


 

目前市场上几乎所有的PC的液冷散热系统都是被动式的散热,即散热系统本身不产生冷量,而是通过冷排端的翅片冷凝器将系统的热量排出去从而形成散热,简单有效,散热效果比风冷强,但是也强不了太多,因为该系统不能主动产生冷量,当电脑进行超频时,CPU功率快速增加,发热量也同步增加被动式散热很难及时将热量带走,一般被动液冷极限也就到300-400W。

为了解决此问题,针对AI芯片开发了压缩机制冷系统,冷量从300W-2000W,并采用静音降噪技术,压缩机可以实现变频和低冷量运行,适用于各种状态和模式下工作的CPU或是GPU,保证CPU和GPU长时间处于合理、稳定和最佳工作状态。

下图为Q520系列,如图所示:

AI大模型

外置主机散热系统Q520图

 

基础版冷量达到500W,进阶版冷量达到600W,后续陆续推出1000W以上的机器和设备,用于超频或是CPU、GPU同时稳定运行。

下图为1600W的主动降温系统,实测可以满足目前最新的CPU(如i9-14900KS)和GPU(如RTX4090)以最佳状态运行,而噪音也不大,55dB以内,满足民用的使用环境。

AI大模型

1600W主动降温系统图

 

 

      
 

液冷行业在蓬勃发展的同时也存在一些挑战,液冷技术在国内外发展已有十余年,但当前生态不完善,各家产品形态各异,产品规范化程度较低。目前业内尚无PC系统一接口规范标准,机柜与服务器深度耦合,各家PC设备、冷却液、制冷管路、供配电等产品形态各异,不同厂家产品接口不同、不能互相兼容,势必限制竞争,影响产业高质量发展。

因此,液冷技术标准、产业链生态仍有待更进一步的建立与规范,酷凌时代积极参与液冷技术规范的编写,利用自身在液冷行业的丰富经验和应用案例,推动液冷行业快速、高效、规范发展。

AI大模型

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分