每到厂商发布服务器硬件时,都会用可观的性能提升图表来吸引客户,然而事实是,无论是服务器CPU、GPU还是内存,其功耗都是在大幅增加的。以英伟达的数据中心GPU为例,目前最普及的A100 GPU功耗在250W到300W,而新公布的H100 GPU功耗已经翻倍至700W。
在如此高的功耗下,早在2017年,国内数据中心的年度耗电量就已经超过1000亿千瓦时,也超过了三峡大坝的发电量。更可怕的是,这个数字还在一直攀升,目前数据中心用电量已经占了全社会耗电量的1.5%到2%左右了。
每年近一半浪费,中国开始数据中心改革
在数据中心的能效指标中,最重要的就是数据中心电能利用效率,也就是PUE。PUE代表了IT设备占总耗电的比值,这个指标越接近1,也就意味着制冷、供配电等非IT设备的耗能占比越低。
2021年7月,工信部印发了《新型数据中心发展三年行动计划(2021-2023)》,其中对数据中心的能效和算力做了规划,目标是在2021年底全国数据中心平均利用率争取提升到55%以上,总算力超过120EFLOPS,新建大型及以上数据中心PUE降低到1.35以下。
而此次三年行动的最终目标是将平均利用率提升到60%以上,总算力超过200EFLOPS,新建大型及以上数据中心PUE降低到1.3以下,更容易控制散热功耗的严寒与寒冷地区争取降低到1.25以下。
可以看出早在这一计划提出前,我国的数据中心平均利用率是不及55%,这意味着在全中国的数据中心运维成本中,有45%是完全被浪费掉了,如果能将整体利用率提升至目标中说的60%,
但事实上,如果只是控制大型及以上数据中心的PUE,很难起到整体提高能效的作用,固然在全年耗电量中大型和超大型数据中心占了很大一部分,但这些项目通常都是经过云服务企业、政府审批的,往往早在立项之初就考虑到了能效。但中小型数据中心的乱象才是最难解决的问题,虽然行动计划给出了改造升级“老旧小散”数据中心的任务,但这类任务毕竟不比老旧建筑改造,需要考虑的因素也更加复杂。
还有一点需要关注,那就是数据中心的利用率的提升其实并没有那么容易,尤其是某些云服务厂商的数据中心。云服务讲究的是按需收费,所以云服务厂商往往都会在资源利用上都会留有余地。固然我们可以利用大量共享硬件的实例提高利用率,但这难免会对云应用的性能造成影响,显现在我们的日常应用上就是软件响应时间变长、抢购商品崩溃或是视频码率降低等。
但我们没法对没有利用上的服务器想关就关,且不说开关本身消耗的电能,这种频繁操作对于数据中心另一个昂贵的硬件资源,存储,也会造成严重磨损。所以,如何在留有余地的同时,动态调整能耗,并充分利用分布式计算,才是这些数据中心需要突破的。
氮化镓拯救数据中心电源的效率
除了提高IT硬件本身的能效比之外,还有一种思路就是从数据中心的PSU电源上下手。PSU负责将输入的交流电转化为直流电,但就是这样一个电能转换装置,却占据了近1/4的耗电量,仅次于CPU等IT器件。正因如此,不少PSU厂商开始在其产品中利用新的电源技术,比如宽禁带材料氮化镓。
目前PSU追求的都是80 Plus这一推荐能效标准,这一标准规定了在额定负载的20%、50%和100%下,都要拥有80%以上的能效。而要想达到80 Plus Titanium,这一标准PSU在不同负载下的能效要做到超过90%。传统的硅超结MOSFET方案,固然也有做到90%以上的方案,但这每提升1%,对大型数据中心而言就意味着可观的能耗减少,况且传统硅基方案在低负载下的高效能存在挑战,而不用说功率密度难以堆上去了。
氮化镓PSU与硅基PSU功率密度和能效对比 / GaN Systems
而在利用氮化镓这一技术后,其功率密度可以轻松达到100W/in3,能效达到95%以上。这样一来,数据中心可以在保证机架高度不变的情况下,用上更小的PSU电源模块,多出来的空间可以加装更多的DIMM内存,甚至是CPU。
既然氮化镓能做到如此高的能效,那么同为宽禁带材料的碳化硅是否也能胜任呢?如果单从能效的角度来说,拥有更低导通电阻和更快开关速度的氮化镓还是要更胜一筹,这也是为何无论是不少宽禁带半导体厂商,比如英飞凌、安森美、GaN Systems,相继在PSU上推出氮化镓解决方案的原因。
结论
在数据中心提高能效的这条路上,除了规范标准和提高PSU或UPS这些电源模块的能效外,发展新型冷却技术也是另一种高效的方法,尤其是在数据中心的计算密度越来越大的情况下,水下数据中心就是一种可以尝试的应用场景。与此同时,能源本身的管理也与数据中心息息相关,就拿智能电网技术来说,这一技术的发展可以进一步降低数据中心的运营成本和能耗,但智能电网的数据分析和优化本身,也需要靠数据中心的支持。
全部0条评论
快来发表一下你的评论吧 !