行业资讯 I 数据中心爆炸式增长的背后,如何解决散热问题?

描述

 

数据

 

行业里存在这样一种说法:全世界的数据中心消耗了大量的能源——事实也确实如此。具体消耗量因来源(和数据中心)而异,但大致上一个数据中心可以消耗 100 兆瓦;该数目来自 Energy Innovation (EI) 的报告《数据中心到底用了多少能源?(How Much Energy Do Data Centers Really Use?) 》。

 

下方饼图也出自这份报告,报告中表示,粗略来看,全世界一半的电力用于运行数据中心的设备,另一半用于将电力输送到建筑内并将热量排出。

 

数据

 

一个很好的例子是位于美国俄勒冈州达尔斯市的谷歌数据中心——因为那里曾建有铝冶炼厂。铝是利用大量的电力从铝土矿中提炼出来的,所以冶炼厂总是位于发电厂附近,如水电大坝。俄勒冈州的铝冶炼厂关闭了,因此有大量的电力可用,所以谷歌在那里建立了数据中心。另外,该数据中心位于哥伦比亚河上,这为冷却提供了一个取之不尽的冷水来源。这是我所知道的“熊彼特创造性破坏理论”最好的例子之一:20 世纪的铝冶炼厂被 21 世纪的超大规模数据中心所取代。

 

全球数据中心的电力增长幅度是多少?

 

既然全球各地都在建造越来越多的数据中心,那么可以假设,数据中心的总耗电量正在快速增长。一些推测性的图表显示整个世界的电力供应将用于为数据中心(或比特币矿工)供电:

 

随着全球互联网用户数量的增长,市场对数据中心服务的需求也在增加,这引起了人们对数据中心能源使用增长的担忧。2010 年至 2018 年间,全球 IP 流量(在互联网上传输的数据量)增加了 10 倍以上,而同时全球数据中心的存储容量也增加了 25 倍。在同一时期,全球服务器上运行的计算实例数量(托管的总应用数)增加了 6 倍以上。

 

—— Energy Innovation (EI) 报告

 

但事实证明,担忧这些问题的人对半导体、EDA、摩尔定律以及使芯片的功耗越来越低的解决方案一无所知。目前,全球数据中心的总耗电量约为 200TWh/年,但其实这与十年前没有什么不同。以下内容来自 EI 报告:

 

数据

 

然而,从自下而上的角度来看,新的结果表明情况并非如此:尽管在过去十年中,信息服务的需求快速增长,但在 2010 年至 2018 年间,全球数据中心的能源使用可能只增加了 6%。

……
 

2018 年全球数据中心消耗了约 205 太瓦时 (TWh),占全球电力使用的 1%,这一发现与先前基于外推法的估算数据形成了鲜明的对比——此前估计在过去十年内,数据中心的能源使用迅速上升。

 

—— Energy Innovation (EI) 报告

 

从某种意义上说,这是很了不起的。另一方面,在 2010 年至 2018 年间,半导体工艺技术经历了几个节点:2010 年时28nm 还没有问世,然后到 2018 年时 7nm已然诞生。每前进一个节点都会使功耗降低约 30%,这意味着同样的功能,2018 年的功耗约为 2010 年的 15%。因此,即便互联网流量、数据中心、云计算经历了爆炸式增长,使用的电力仅占全球电力总量的 1%。

 

测算功耗

 

2010 年至今的另一个变化是,我们在设计芯片时可以使用更好的工具来测算功耗。曾经除了凭感觉判断,我们只能使用 Excel 表格来测算功耗。2010 年之前,这几乎是芯片设计师、服务器设计师和整个数据中心设计师的唯一工作方式。这个方法通常会导致非常悲观的设计,因为大家无法承受芯片过热熔化,或者整个机架过热的后果。

 

当然,这个问题需要一层一层入手,彼此嵌套。一个数据中心由一排又一排的机架组成。每个机架通常包含大量的服务器,并在顶部配有路由器。这些服务器通常被称为“披萨盒”,因为其大小和形状大致如此,并且用处理器、GPU 和其他芯片取代了意大利香肠。这些是所有热量的来源。因此,要想提高机架(乃至整个数据中心)功耗估算数据的准确性,就要从准确计算每个芯片的耗散功耗入手。

 

 

 

Voltus 和 Celsius

 

Cadence Voltus IC Power Integrity Solution 和 Celsius Thermal Solver可以在这方面发挥重要作用,深入了解请阅读文章《免费下载 I 如何在芯片的热分析中实现2+2=5?》。

 

Voltus 主要用于计算芯片上各处的 IR 压降,并同时生成 Voltus 热模型 (Voltus Thermal Models ,VTM)。VTM 模型包含裸片上的材料特性、金属密度(因为金属既导热又导电)、动态功耗信息以及与温度有关的泄漏功耗。

 

以上只是一个起点;芯片装在封装里,封装又装在电路板上——因此,芯片产生的一些热量是分散的,因为封装和电路板在传导信号的同时也在传导热量。同时其周边还有其他重要的热源,如散热器、热管、风扇等等。此时 Celsius Thermal Solver就派上了用场,它是 Cadence推出的业内首款用于完整电热协同仿真系统分析的热求解器,由两个不同的基础求解器组成:一个基于有限元方法 (FEM),用于处理通过电路板的传导及辐射热;另一个基于计算流体力学 (CFD),用于处理与流体有关的一切,通常是气流,但也包括水冷所涉及的流体(或实际上通常使用的其他流体)。

 

经过生产验证,Celsius Thermal Solver的大规模并行架构可在不牺牲精度的前提下,提供比传统解决方案加快10倍的性能。

 

同时,Celsius Thermal Solver 可以和Voltus工具无缝集成、协同工作,对“披萨盒服务器”进行非常精确的分析;然后将这些数据相加,得到一整个机架的数据;再将机架数据相加,得到一整个数据中心的数据。同时,这种分析也可用于决定在哪里放置风扇、挡板和散热器等部件。

 

下图显示了通过Voltus 和 Celsius的热分析而发现的“比萨盒服务器”中的问题:

 

数据

 

数据

如果想进一步了解Voltus 和 Celsius 之间1+1>2的热分析,欢迎点击下图下载白皮书《使用 Celsius Thermal Solver 对 3D-IC 进行热和应力分析》,该白皮书详细讲述了Voltus 和 Celsius的协同工作流程:

数据

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分