描述
电子发烧友网报道(文/黄山明)就在近期,英伟达再次放出了一份亮眼的财报,不仅营收大超预期,黄仁勋更是展望Blackwell与Vera Rubin平台有望在2027年前达到1万亿美元。与此同时,一些大的科技巨头,如微软、谷歌、Meta 、亚马逊等,其2026年的AI资本开支预计将达到7000亿美元。
但另一方面,电力开始不够用了。AI数据中心已经成为名副其实的“电老虎”,生成式AI搜索消耗的电量是传统谷歌搜索的数倍。并且,英伟达芯片算力越强,密度越高,对电力的需求就越旺盛。
AI数据中心的电力危机
前段时间,微软CEO纳德拉在接受采访时表示,目前面临的最大问题不是算力过剩,而是电力。在微软最新建设的部分尖端数据中心里,由于当地电网无法及时供电,大批高价购入的英伟达芯片甚至只能处于闲置的状态。
数据显示,2026年全球将首次出现5个峰值功耗突破1GW的超级数据中心。而1GW是什么概念,这相当于一个中型核反应堆的输出量。例如微软在威斯康星州的Fairwater设施,预计到2028年其功耗将超过3GW。如此恐怖的电力消耗,现有的民用网络根本无法承受。
以美国为例,根据标普全球最新的能源数据,到2028年,全美新数据中心将产生约44GW的额外电力需求。然而,受限于电网扩容速度,未来三年内上线的电网新产能只能为数据中心提供25GW。这意味着将存在19GW(接近40%)的巨大电力缺口。
而电力需求如此巨大的原因,根源在于半导体物理法则的改变。过去,随着晶体管尺寸的缩小,例如从28nm到5nm,其工作电压和动态功耗会按比例下降,因此可以在相同面积内塞入更多的晶体管,而总功耗保持不变。这就是罗伯特·登纳德在1974年提出的著名的登纳德缩放定律。
但在2006年后,这一定律失效了。漏电流和量子隧穿效应导致即便晶体管变小,其开关功耗也不再按比例下降。例如英伟达H100拥有800亿个晶体管,B200拥有2080亿个晶体管。晶体管密度翻倍,单芯片热设计功耗从300W飙升至1000W甚至1200W以上。
在实际部署中,英伟达主推的GB200 NVL72架构将72颗GPU和36颗CPU集成在一个标准机架内,这使得单个计算机架的功耗高达120kW甚至130kW。
再由于功耗和散热的限制,芯片上所有晶体管无法在同一时间以最高频率全速运行。如果同时点亮所有核心,芯片会瞬间烧毁。这意味着大量硅面积必须处于“暗”(关闭或降频)状态。AI芯片为了达到极高的峰值算力,正在逼近这个热力学极限,导致每增加1 FLOPS的算力,付出的电力代价越来越高。
并且为了解决海量数据传输的问题,AI芯片通常搭配HBM。这是因为HBM采用3D堆叠技术,将多层DRAM通过TSV垂直连接,其数据传输速率极高,但同时也带来了巨大的热电效应。数据在内存和GPU核心之间频繁搬运,产生的大量功耗并没有用于真正的计算中,而是变成了系统内耗的热量。
并且AI数据中心的信号在电信号和光信号之间频繁转换,随着集群规模的扩大,网络通信和光电转换所消耗的电量,已经占到了整个数据中心总能耗的20%-30%。
电力承载天花板下的解决方案
当前AI芯片的迭代遵循摩尔定律,但要建一座电厂,拉一条超高压输电线动辄需要5-10年。建设数据中心的进度,远远跑在了电网承载力的前面。电力限制之下,厂商的AI数据中心需求又摆在面前,无法增加电力供应,那只能降低功耗。
因此可以看到,各大厂商开始自研芯片,如谷歌TPU、微软Maia、亚马逊Trainium。英伟达GPU是为了处理高度并行的矩阵乘法设计的,但为了通用性,它付出了巨大的功耗代价,例如需要庞大的控制逻辑和缓存。
而云厂商通过定制专用于特定Transformer层计算的硬连线逻辑,砍掉不必要的通用控制模块,可以在同等算力下将功耗降低30%-50%,提升每瓦特Token产出量。
例如微软正与Anthropic洽谈,计划向其提供自研Maia 200 AI 芯片。若达成,将是微软自研芯片对外突破的重要案例,目前微软在自研AI芯片对外服务上落后于亚马逊和谷歌。纳德拉此前称,Maia 200相比旧方案每美元Token生成效率提升30%以上。
在电源架构上,过去外部高压电进入机房后,会先降到48V或54V,再通过服务器板载的中间总线转换器降到12V,最后由电压调节模块降到芯片需要的1V左右,多级转换导致电能层层损耗并大量放热。
如今一些电源芯片巨头,如Navitas、ST推出了“800V直转6V/12V”的级联电源板(PDB)。利用GaN和SiC的高频开关特性,电能从数据中心总线直接一步跨越到芯片脚下,砍掉了中间所有的转换损耗,效率飙升至96.5%,瞬间释放了大量原本被浪费的机架空间。
还有垂直供电技术(VPD),以前电源芯片贴在GPU四周,横向导电。现在如Empower Semiconductor推出的Crescendo VPD架构,将电源管理芯片直接置于GPU芯片的下方(封装内部垂直堆叠)。这使电流传输路径缩短了90%以上,完美解决了大模型突发计算时瞬态电流突变导致的电压骤降风险。
共封装光学(CPO)更是将光引擎直接和XPU封装在一起,电信号只走几毫米就进光,省掉长距离SerDes和大部分DSP。SemiAnalysis估算,CPO可以把传输每比特能耗降低50%以上,未来目标是80%。
近期华为数字能源等巨头正式推出了“网格互动式AI数据中心架构”数据中心不再只是单纯的耗电终端,而是配备了海量的电池储能系统与虚拟电厂技术。当白天电网用电高峰、电价昂贵时,数据中心可以降低部分非紧急训练任务的功耗,甚至用自备储能向电网倒灌电量(能源套利);到了深夜电力过剩、电价便宜时,再全功率开满进行AI大模型训练。这种技术缓冲大大减轻了公共电网的瞬态压力。
此外,液冷技术的加入,也有助于功耗的降低。例如冷板液冷(DLC)技术,冷板贴在 GPU/CPU 上,用去离子水/丙二醇溶液循环带走热量,可以让PUE下降30%-60%,显著减少散热功耗。
而浸没式液冷更是将服务器整个泡在介电液体里,液体直接吸收芯片热量,再通过 CDU外热交换。散热能力最高可以达到100kW/机柜,机柜服务器密度可以提升约10倍,PUE可以低至1.03,整体节能可达30%。
总结
当前AI芯片在硅片和软件架构上的演进是指数级的,但散热、发电厂与电网遵循的是传统物理学和重工业规律,其演进是线性的、受限于物理材料极限的。电力的供应,很大程度限制了AI发展的上限,如何在有限的电力供应下,获得更高的Token生成效率,已经成为行业重要的研究方向。
打开APP阅读更多精彩内容