当AI技术芯片的功耗和热量不断攀升,散热成为技术进步新瓶颈。微软最新研发的微流体冷却系统突破传统冷板限制,将液体冷却剂直接引入芯片内部,散热效率提升最高3倍。这项技术不仅显著降低温升与能耗,还为3D芯片架构和更高密度的数据中心铺平道路,标志着AI技术算力基础设施迈向更高效、更可持续的新阶段。
最近,AI 技术芯片非常“热”——是字面意义上的热。
数据中心用于运行最新 AI 技术的芯片,明显比前几代硅芯片产生了更多的热量。任何感受过手机或笔记本电脑发热的人都明白,电子设备不喜欢高温。当 AI 技术算力和新芯片设计的需求日益增长,当前的冷却技术将在短短几年内成为限制 AI 技术进步的瓶颈。为解决这个问题,微软已成功测试了一种新的冷却系统,其散热效果比目前常用的冷板冷却技术高出3倍。
这种新系统采用了微流体技术(Microfluidics),这种方法将液体冷却剂直接引入硅芯片内部——即热源所在。冷却系统中的微小通道被直接蚀刻在硅芯片的背面,形成沟槽,使冷却液能够直接流经芯片,并高效带走热量。
该团队还使用了 AI 技术来识别芯片上独特的热特征,并更精确地引导冷却剂。研究人员表示,微流体技术可以提高下一代 AI 技术芯片的效率和可持续性。目前数据中心中使用的大多数 GPU 都采用冷板冷却,但冷板与热源之间隔着好几层材料,这种结构限制了其散热效率,而随着每一代新的 AI 技术芯片功能越来越强大,产生的热量也越来越多。最快在5年内,“如果你仍然严重依赖传统的冷板技术,你就会陷入瓶颈。”微软云运营与创新部门高级技术项目经理萨希·马杰蒂(Sashi Majety)说。
近期,微软宣布已成功开发出一种芯片内微流体冷却系统,能够有效冷却一台运行模拟 Microsoft Teams 会议核心服务的服务器。
微软公司副总裁、云运营与创新首席技术官朱迪·普里斯特:“微流体技术将允许实现功率密度更高的设计,这将使芯片能够具备更多客户关心的功能,并在更小的空间内提供更好的性能。但我们需要证明这项技术和设计是可行的,然后我想做的下一件事就是测试可靠性。
该公司的实验室规模测试表明,根据工作负载和配置的不同,微流体技术的散热性能最高可比冷板提升三倍,微流体技术还将 GPU 内部硅芯片的最高温升降低了65%,但这一结果会因不同芯片类型而有所差异。该团队预计,这种先进的冷却技术还将提高电源使用效率(PUE,衡量数据中心能效的关键指标),并降低运营成本。”
01 利用 AI 技术进行仿生设计
微流体技术并非新概念,但使其投入实用一直是整个行业面临的挑战。“在开发像微流体这样的技术时,系统思维至关重要。你需要理解跨越硅芯片、冷却剂、服务器和数据中心的系统交互,以充分利用它。”微软云运营与创新系统技术总监侯萨姆·阿利萨(Husam Alissa)强调,仅仅是设计出合适的沟槽就很困难。微通道的尺寸与人类头发丝相当,这意味着没有任何容错空间。
在原型开发的工作中,微软与瑞士初创公司 Corintis 合作,利用 AI 技术优化了一种仿生散热设计,其冷却效率高于传统的直上直下通道。这种仿生设计类似于树叶或蝴蝶翅膀的脉络——自然界已被证明擅长以最高效的路径输运所需物质,并分配养分。
微流体技术需要的不仅仅是创新的通道设计,更是一个复杂的工程挑战。它需要确保通道足够深,能够循环足够的冷却液而不堵塞,同时又不能太深以致削弱硅芯片强度,带来破裂风险。仅在过去一年,该团队就进行了4次设计迭代。
微流体技术还需要为芯片设计防泄漏封装、寻找最佳冷却剂配方、测试不同的蚀刻方法,并开发将蚀刻步骤添加到芯片制造中的分步流程。这一突破只是微软在基础设施领域持续投资与创新、以满足 AI 技术服务与算力需求的一个缩影。
例如,该公司计划在本季度资本支出超过300亿美元。这些投资包括开发其自有的 Cobalt 和 Maia 系列芯片,这些芯片专为更高效地运行微软和客户工作负载而设计。例如,自微软部署其 Cobalt 100 芯片以来,微软及其客户正受益于这种芯片的高能效、可扩展性与卓越性能。
然而,芯片只是整个系统性难题中的一部分,因为硅芯片是在数据中心内复杂的板卡、机架和服务器系统中工作的。微软的系统方法意味着要微调这个堆栈的每个部分,使其协同工作,最大化性能和效率。开发下一代冷却技术,如微流体技术,正是这一系统优化的重要环节。
下一步,微软将继续研究如何将微流体冷却技术整合到其未来几代自研芯片中。公司还表示,将继续与制造和硅芯片合作伙伴合作,将微流体技术纳入其数据中心的量产流程。
“硬件是我们服务的基础。” Microsoft 365 核心管理技术研究员吉姆·克利韦因(Jim Kleewein)说,“我们都与这个基础利害相关——它的可靠性、成本效益、速度、我们能从中获得的行为一致性以及可持续性等等。微流体技术改善了成本、可靠性、速度、行为一致性、可持续性等每一个方面。”
02 微流体技术的优势
事实上,一个简单的 Microsoft Teams 通话就能展现出微流体冷却技术的潜在优势。
Microsoft Teams 不是一种单一服务,而是大约300个不同服务组成的集合,它们无缝协作,各自承担不同职责:连接客户、主持会议、存储聊天、合并音频、录制内容以及转录。克利韦因解释:“每项服务都有不同的特点,对服务器的不同部件压力也不同。服务器使用率越高,产生的热量就越多,这很合理。”
例如,大多数 Microsoft Teams 通话往往在整点或半点开始。呼叫控制器在这些时间点的前五分钟到后三分钟非常繁忙,而在其他时间则不太繁忙。处理需求峰值有两种方法,一是部署大量昂贵却时常闲置的冗余资源,二是让服务器超负荷运行,即所谓的“超频” (overclocking)。但是因为超频会显著提升芯片温度,若过度使用可能导致损坏。
克利韦因说:“每当我们遇到峰值工作负载时,我们都希望能够超频,而微流体技术将允许我们进行超频,而无需担心烧毁芯片,因为这种更高效的芯片冷却技术有成本和可靠性上的优势,还有速度优势,这让我们可以更安全的实现超频。”
03 在更大的技术图景中理解冷却技术
微流体技术是微软技术蓝图中的一环,旨在推动冷却技术革新,并优化云堆栈中的每一部分。
传统上,数据中心通过大型风扇吹风来冷却,但液体的导热效率远高于空气。微软已在其数据中心部署的一种液体冷却形式是冷板。冷板放置在芯片顶部,冷液体流入,在冷板内部的通道中循环,从下方的芯片吸收热量,然后热液体流出进行冷却。
芯片通常被多层材料封装以保护芯片,但这些材料也像毯子一样,既阻碍了内部热量散发,又阻挡外部冷却效果,从而限制了冷板的性能。但预计适用于 AI 技术的下一代芯片将消耗更大的算力,因此可能会变得过热而无法通过冷板有效散热。
而通过微流体通道直接冷却芯片的效率要高得多——不仅在于散热,还在于整个系统的运行。由于去除了多层绝缘结构,冷却剂可直接接触发热的硅芯片,从而在更高温下即可实现有效散热。这将节省原先用于给冷却剂制冷的能源,同时冷却效果优于当前冷板,还能有效利用废热。
微软还旨在通过软件和其他方法优化数据中心运营。“如果微流体冷却能使用更少的电力来冷却数据中心,那将减轻对附近社区电网的压力。”专攻计算效率的微软云技术研究员兼公司副总裁里卡多·比安基尼(Ricardo Bianchini)补充。
散热问题不仅制约了 AI 技术计算与芯片设计,也制约了数据中心的设计。数据中心的一大优势在于服务器之间的物理距离很近。距离会降低服务器之间的通信速度,也就是所谓的延迟。但如今的服务器密度已经达到一定程度,超过这个程度就会出现散热问题。微流体技术能够提高数据中心的服务器密度。这意味着数据中心有可能在无需额外建筑的情况下提升计算能力。
04 芯片创新的未来
微流体技术还有潜力开启全新的芯片架构,例如 3D 芯片。正如将服务器紧密排列可以降低延迟一样,堆叠芯片可以进一步降低延迟。这种 3D 架构的制造极具挑战性,因为它会产生大量热量。然而,微流体技术可以将冷却剂输送到非常靠近功率消耗点的位置,因此“我们未来可能会让液体直接流过芯片内部”,比安基尼补充解释。
这类似 3D 堆叠结构中的设计。这将涉及一种不同的微流体设计,在堆叠的芯片之间使用圆柱形针柱,有点像多层停车场的柱子,流体围绕它们流动。普里斯特表示:“任何时候我们能更高效地做事并简化流程,这都为新的创新打开了机会,我们可以研究新的芯片架构。”
突破散热限制后,数据中心机架可容纳更多芯片,或在单芯片上集成更多核心,从而提升速度并支持更小型、更高性能的数据中心。
微软表示,通过成功演示微流体等新型冷却技术的可行性,公司希望为整个行业开发更高效、更可持续的下一代芯片铺平道路。
吉姆·克利韦因,Microsoft 365 核心管理技术研究员吉姆·克利韦因:“我们希望微流体技术成为每个人都做的事情,而不仅仅是我们做的事情。采用者越多,技术发展越快,对微软、客户乃至整个行业都更有利。”
全部0条评论
快来发表一下你的评论吧 !