如何解决新一代数据中心的能耗挑战

描述

以往手机厂商在推出新机型时,其宣传的卖点常常集中在摄像头、显示屏、待机时长这些参数上。在人间处处皆AI(人工智能)的背景下,他们的宣传重点也要转向了。比如不久前新面世的骁龙8至尊版移动平台,其主要“卖点”就是可以实现在终端侧多模态生成式AI应用。

而当我们从终端再看向“云端”,数据中心作为人类数字生活背后看不见的引擎,管理着从视频流到云计算的巨大信息流,在AI应用大爆发的背景下,随着对数据存储和处理需求的增长,数据中心更智能、更高效和可持续发展的压力也在增加。

根据Flexential 2024年人工智能基础设施状况报告,59%拥有人工智能路线图的组织正在加大基础设施投资,以满足日益增长的人工智能工作负载需求,为更强大、更可持续、更具成本效益的新一代数据中心奠定基础。

新一代数据中心的能耗挑战

新一代数据中心的构建中,有诸多挑战。其中,能耗可以说是尤为关键的一环。

众所周知,数据中心是巨大的能源消耗者。以谷歌搜索为例,一个查询约需0.3W时,而在市场上日渐火爆的ChatGPT则需要2.9W时的电力,平均而言,处理一个ChatGPT查询所需的电量几乎是谷歌搜索的10倍。

根据国际能源署的统计,数据中心约占全球电力需求的1-2%,十年后,这一比例可能会上升到3-4%。国际能源署(IEA)近期发布的《2024年电力报告》显示,到2026年,全球数据中心的电力需求将从2022年的不足50太瓦(TW)快速攀升至90TW。另一项统计数据表明,从2021年到2024年底,仅Nvidia一家公司就出货500万台H100及以上版本的加速器(大部分是H100的出货量),为此,Semianalysis预计,到2025年初,人工智能数据中心的电力需求将超过10吉瓦(GW)。

从电网到处理器

提升电源转化效率

随着越来越多的处理器被安装到服务器机架中,为满足数据中心不断增加的需求,所提供电力的功率密度要比以往更高。在此过程中,为了处理一个AI支持的请求,能量从电网到处理器须经四次转换,这期间可能会导致大约12%的能量损失。

为了应对这一挑战,众多技术厂商正在为不断推出优化的解决方案。

1   onsemi高能效数据中心电源解决方案

onsemi的T10 PowerTrench系列和Elite SiC 650V MOSFET组合专为数据中心应用提供了一种高效的电源解决方案,数据中心因此能将功耗降低约1%。如果在全球数据中心实施,该解决方案每年可以减少10TW的能耗,相当于每年为近100万户家庭提供全部电力所需的能源。

其中,Elite SiC 650V MOSFET具有卓越的开关性能和较低的器件电容,可在数据中心和储能系统中实现更高的效率。与上一代产品相比,这款新一代碳化硅(SiC)MOSFET将栅极电荷减半,并将存储在输出电容(Eoss)和输出电荷(Qoss)中的能量减少了44%。与超级结(SJ)MOSFET相比,它们在关断过程中没有尾电流,在高温下具有优异的性能,显著降低了开关损耗。

T10  PowerTrench MOSFET系列是专为处理高电流而设计的产品,这一点对DC-DC功率转换级至关重要,并在紧凑的占地面积内提供更高的功率密度和卓越的热性能。通过屏蔽栅极沟槽设计,T10 PowerTrench MOSFET实现了具有超低栅极电荷和小于1mΩ的导通电阻RDS(on)。此外,软恢复体二极管和较低的Qrr有效减少了振铃、过冲和电气噪声,从而确保了在压力下的极佳性能、可靠性和稳健性。

T10 PowerTrench系列和Elite SiC 650V MOSFET组合方案还符合超大规模运营商支持的下一代高功率处理器所需的严格的开放式机架V3(ORV3)基本规范。

2   Molex先进连接器提升配电功率密度

除了必要的电子元器件,数据中心配电架的连接器的设计也必须能够提供高效率。连接电阻损失的电能不仅增加了运营成本,还会导致设备的热负荷增加。

Molex的PowerPlane 母排电源连接器可助力数据中心快速完成电源部署,且不需要额外的电缆和组件安装。该连接器的对准精度高达+/- 1.00毫米,既能确保准确的插配,还支持更高的能源效率。多个独立的接触点提高了设计的灵活性,浮动式安装设计非常适合那些难以触及区域的盲插。

此外,两侧的可选感应触点还能实现控制器的热插拔,而有了可选的集成式机箱接地触点,就不必单独进行二次接地连接。另外,PowerPlane电缆组件还符合OCP ORV3标准,满足数据中心配电架构的需求。

利用AI优化数据中心的能源效率

值得一提的是,一方面数据中心正在通过技术升级为更大规模的AI应用赋能,与此同时,其自身也在利用AI所驱动的自动化、数据分析和机器学习,并从中获益。简言之,数据中心既是AI应用的驱动者,也AI技术的收益者。

具体到数据中心的能耗管理,众所周知,在数据中心中冷却系统是能源消耗大户,然而传统的冷却方法对于高性能计算(HPC)的需求效率低下,导致能耗过高和运营成本的增加。在不影响性能的情况下,人工智能可以根据实时数据动态调整冷却系统,优化能源使用。

例如,谷歌的DeepMind JEST人工智能工具已经能够降低其数据中心的能耗,展示了人工智能使设施更节能的巨大潜力。

目前,人工智能正在成为提升数据中心能源效率的强大工具,主要体现在三个方面:

一是数据中心可以使用人工智能来预测冷却系统问题,并允许系统提前进行调整以防止停机并保持极佳效率。这种主动的预测性维护方法将意外故障减少了70%,维护成本降低了约25%。

二是利用人工智能可实现动态冷却管理。数据中心的冷却系统对于保持极佳工作温度、防止过热以及确保服务器和其他设备的可靠性至关重要。然而,冷却系统属于能源密集型,它们通常消耗设施总用电量的40%左右。由人工智能驱动的动态冷却提供了一种持续分析温度数据并实时调整冷却水平的解决方案。这种智能方法优化了冷却效率,并在任何时候均可提供所需的精确量,且不依赖于静态设置。

三是利用人工智能可实现智能储能管理。人工智能和机器学习通过分析消耗模式和预测峰值使用时间来优化能源的使用和存储,减少了高需求时期对电网的依赖。使用人工智能管理能源存储的数据中心可以在需要时无缝过渡到备用电源,从而极大限度地减少停机时间并降低运营成本。

小结

人工智能是一项基石技术,它的爆炸式增长是数据中心需求激增的关键。传统数据中心主要关注存储和处理需求,而人工智能数据中心则需要更先进的基础设施、更高的计算能力和能效升级的支撑。随着各行业数字化转型的势头日益增强以及电力密集型人工智能应用的增加,全球对数据服务的需求呈指数级增长。

在快速增长过程中,数据中心建设面临着诸多挑战,目前非常紧迫的一点就是能源效率问题。麦肯锡的数据显示,2022年数据中心的年功耗为17吉瓦(GW),到2030年,预计将达到35 GW。为了应对这一挑战,具有更高源效的电子元器件对新一代数据中心的健康发展显得尤为重要。

与此同时,将人工智能集成到数据中心可以改变这些基础设施的运作和发展方式,例如,数据中心可以使用人工智能工具来管理其处理的设施和工作负载,此外,人工智能还可以帮助数据中心管理员完成各种任务,包括电源控制、能耗监控、维护更新和网络安全等。尤其是针对数据中心不断增长的功率密度需求,人工智能通过分析使用模式和实时调整冷却系统或优化服务器工作负载来优化能耗,从而极大限度地减少能源浪费。这些调整不仅降低了运营成本,而且通过减少对环境的影响,帮助数据中心实现可持续发展目标。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分