单芯片1200W！AI数据中心撞上电网天花板

Simon观察 2026-05-25 8751

描述

电子发烧友网报道（文/黄山明）就在近期，英伟达再次放出了一份亮眼的财报，不仅营收大超预期，黄仁勋更是展望Blackwell与Vera Rubin平台有望在2027年前达到1万亿美元。与此同时，一些大的科技巨头，如微软、谷歌、Meta 、亚马逊等，其2026年的AI资本开支预计将达到7000亿美元。

但另一方面，电力开始不够用了。AI数据中心已经成为名副其实的“电老虎”，生成式AI搜索消耗的电量是传统谷歌搜索的数倍。并且，英伟达芯片算力越强，密度越高，对电力的需求就越旺盛。

AI数据中心的电力危机

前段时间，微软CEO纳德拉在接受采访时表示，目前面临的最大问题不是算力过剩，而是电力。在微软最新建设的部分尖端数据中心里，由于当地电网无法及时供电，大批高价购入的英伟达芯片甚至只能处于闲置的状态。

数据显示，2026年全球将首次出现5个峰值功耗突破1GW的超级数据中心。而1GW是什么概念，这相当于一个中型核反应堆的输出量。例如微软在威斯康星州的Fairwater设施，预计到2028年其功耗将超过3GW。如此恐怖的电力消耗，现有的民用网络根本无法承受。

以美国为例，根据标普全球最新的能源数据，到2028年，全美新数据中心将产生约44GW的额外电力需求。然而，受限于电网扩容速度，未来三年内上线的电网新产能只能为数据中心提供25GW。这意味着将存在19GW（接近40%）的巨大电力缺口。

而电力需求如此巨大的原因，根源在于半导体物理法则的改变。过去，随着晶体管尺寸的缩小，例如从28nm到5nm，其工作电压和动态功耗会按比例下降，因此可以在相同面积内塞入更多的晶体管，而总功耗保持不变。这就是罗伯特·登纳德在1974年提出的著名的登纳德缩放定律。

但在2006年后，这一定律失效了。漏电流和量子隧穿效应导致即便晶体管变小，其开关功耗也不再按比例下降。例如英伟达H100拥有800亿个晶体管，B200拥有2080亿个晶体管。晶体管密度翻倍，单芯片热设计功耗从300W飙升至1000W甚至1200W以上。

在实际部署中，英伟达主推的GB200 NVL72架构将72颗GPU和36颗CPU集成在一个标准机架内，这使得单个计算机架的功耗高达120kW甚至130kW。

再由于功耗和散热的限制，芯片上所有晶体管无法在同一时间以最高频率全速运行。如果同时点亮所有核心，芯片会瞬间烧毁。这意味着大量硅面积必须处于“暗”（关闭或降频）状态。AI芯片为了达到极高的峰值算力，正在逼近这个热力学极限，导致每增加1 FLOPS的算力，付出的电力代价越来越高。

并且为了解决海量数据传输的问题，AI芯片通常搭配HBM。这是因为HBM采用3D堆叠技术，将多层DRAM通过TSV垂直连接，其数据传输速率极高，但同时也带来了巨大的热电效应。数据在内存和GPU核心之间频繁搬运，产生的大量功耗并没有用于真正的计算中，而是变成了系统内耗的热量。

并且AI数据中心的信号在电信号和光信号之间频繁转换，随着集群规模的扩大，网络通信和光电转换所消耗的电量，已经占到了整个数据中心总能耗的20%-30%。

电力承载天花板下的解决方案

当前AI芯片的迭代遵循摩尔定律，但要建一座电厂，拉一条超高压输电线动辄需要5-10年。建设数据中心的进度，远远跑在了电网承载力的前面。电力限制之下，厂商的AI数据中心需求又摆在面前，无法增加电力供应，那只能降低功耗。

因此可以看到，各大厂商开始自研芯片，如谷歌TPU、微软Maia、亚马逊Trainium。英伟达GPU是为了处理高度并行的矩阵乘法设计的，但为了通用性，它付出了巨大的功耗代价，例如需要庞大的控制逻辑和缓存。

而云厂商通过定制专用于特定Transformer层计算的硬连线逻辑，砍掉不必要的通用控制模块，可以在同等算力下将功耗降低30%-50%，提升每瓦特Token产出量。

例如微软正与Anthropic洽谈，计划向其提供自研Maia 200 AI 芯片。若达成，将是微软自研芯片对外突破的重要案例，目前微软在自研AI芯片对外服务上落后于亚马逊和谷歌。纳德拉此前称，Maia 200相比旧方案每美元Token生成效率提升30%以上。

在电源架构上，过去外部高压电进入机房后，会先降到48V或54V，再通过服务器板载的中间总线转换器降到12V，最后由电压调节模块降到芯片需要的1V左右，多级转换导致电能层层损耗并大量放热。

如今一些电源芯片巨头，如Navitas、ST推出了“800V直转6V/12V”的级联电源板（PDB）。利用GaN和SiC的高频开关特性，电能从数据中心总线直接一步跨越到芯片脚下，砍掉了中间所有的转换损耗，效率飙升至96.5%，瞬间释放了大量原本被浪费的机架空间。

还有垂直供电技术（VPD），以前电源芯片贴在GPU四周，横向导电。现在如Empower Semiconductor推出的Crescendo VPD架构，将电源管理芯片直接置于GPU芯片的下方（封装内部垂直堆叠）。这使电流传输路径缩短了90%以上，完美解决了大模型突发计算时瞬态电流突变导致的电压骤降风险。

共封装光学（CPO）更是将光引擎直接和XPU封装在一起，电信号只走几毫米就进光，省掉长距离SerDes和大部分DSP。SemiAnalysis估算，CPO可以把传输每比特能耗降低50%以上，未来目标是80%。

近期华为数字能源等巨头正式推出了“网格互动式AI数据中心架构”数据中心不再只是单纯的耗电终端，而是配备了海量的电池储能系统与虚拟电厂技术。当白天电网用电高峰、电价昂贵时，数据中心可以降低部分非紧急训练任务的功耗，甚至用自备储能向电网倒灌电量（能源套利）；到了深夜电力过剩、电价便宜时，再全功率开满进行AI大模型训练。这种技术缓冲大大减轻了公共电网的瞬态压力。

此外，液冷技术的加入，也有助于功耗的降低。例如冷板液冷（DLC）技术，冷板贴在 GPU/CPU 上，用去离子水/丙二醇溶液循环带走热量，可以让PUE下降30%-60%，显著减少散热功耗。

而浸没式液冷更是将服务器整个泡在介电液体里，液体直接吸收芯片热量，再通过 CDU外热交换。散热能力最高可以达到100kW/机柜，机柜服务器密度可以提升约10倍，PUE可以低至1.03，整体节能可达30%。

总结

当前AI芯片在硅片和软件架构上的演进是指数级的，但散热、发电厂与电网遵循的是传统物理学和重工业规律，其演进是线性的、受限于物理材料极限的。电力的供应，很大程度限制了AI发展的上限，如何在有限的电力供应下，获得更高的Token生成效率，已经成为行业重要的研究方向。

打开APP阅读更多精彩内容