揭秘首台百亿亿次超级计算机内部技术

人工智能

635人已加入

描述

AMD和惠普企业介绍新制造的超级计算机Frontier。 当前全世界最快的超级计算机是美国田纳西州橡树岭国家实验室打造的Frontier,该计算机运算功能强大,运算速度比其他7台最快的超级计算机的总和还要高,是运算速度排名第二的计算机的2倍多。Frontier不仅是第一台突破每秒百亿亿次计算(exaflops)门槛的计算机,还在全球高能效超级计算机中排名第二。现在,协作制造Frontier的超微半导体公司(AMD)和惠普企业揭开了该超级计算机正常运转的电子诀窍。

Frontier由74个惠普企业Cray EX超级计算机柜组成,这些机柜共容纳超过9400个CPU。每个节点都包含1个优化的第三代AMD EPYC 64核2千兆赫Trento处理器,用于一般任务处理,以及4个AMD Instinct MI250X加速器,用于高度并行超级计算和人工智能(AI)运算,此外,还有5太字节闪存,协助向GPU快速输送数据。Frontier总共包含9408个CPU、37632个GPU和8730112个内核,这些组件由145千米的网络电缆连接在一起。美国田纳西州橡树岭国家实验室表示,这台全球领先的超级计算机的功耗约为21兆瓦。

gpu

2022年5月,在德国汉堡的全球高性能计算大会上,Frontier展示了每秒1.1 exaflops的整体性能,成为全球500强超级计算机的巅峰。它还可能变得更快,理论峰值性能为2 exaflops。 另外,Frontier在最新的全球绿色500强中排名第二,该排名衡量超级计算机的能源效率。(这并不影响它在整体性能上成为全球最快的超级计算机。)不过,日本的MN-3作为先前全球绿色500强的榜首,每瓦能实现39.38 gigaflops(每秒10亿浮点运算),而Frontier的测试开发系统为每瓦52.23 gigaflops。

Frontier成功的一个关键在于采用AMD的Infinity Fabric互连架构,每个节点内CPU和GPU连接方式有助于增加CPU和GPU的一致性,即它们的共享数据视图完全相同。 得克萨斯州奥斯汀AMD公司GPU和加速处理数据中心的副总裁布拉德•麦克雷迪(Brad McCredie)说:“一致性对于提升性能非常重要。它能帮助你确保分配合适的处理器运行合适的工作负载。很容易使并行CPU处理小任务和GPU处理大型任务。” 在Frontier的开发中,AMD表示,其面对的最大的挑战是功率性能。“有很多文献说,要达到每秒百亿亿次运算,需要几十万个GPU和150兆到500兆瓦功率,而我们想要使用几万个GPU和20兆瓦功率来实现。”麦克雷迪说,“因此,开发过程中上上下下每个人都在追求效率。” 例如,Frontier的每个GPU上都紧密结合一个128千兆字节的高带宽内存。这可以帮助GPU克服计算机性能的一个著名瓶颈:内存和处理之间的数据传输。

此外,Frontier的每个GPU还使用了台积电生产的先进6纳米节点芯片。因此,“它们执行双精度浮点运算的速度与单精度浮点运算相同,这是一项重大创新。”麦克雷迪说。 借助这些进步,Frontier只需几万个GPU,而不需要几十万个GPU。“它承担所有的并行管理,将程序员身上的负担转移到硬件上。这使得该系统更易于编程。”麦克雷迪说。 一个“计算刀片”上有2个AMD节点,74个机柜中的每个都装有64个这种刀片。计算刀片通过惠普企业Slingshot连接器互连,每个连接器都有一个专门设计的64端口交换机,可提供每秒12.8太字节的网络带宽。各组刀片的连接采用一种被称为蜻蜓的拓扑结构,数百个机柜和数十万个节点都可以相互通信,任意两个节点之间最多可以跳转3次。

“Slingshot的部署得到了高度优化,根据所需距离合理采用能效最高的电缆,直连铜缆和有源光缆。”惠普企业资深会员和HPC/MCS的首席技术官迈克•伍德克(Mike Woodacre)说。他补充道,去除低效的通用器件“显著降低了线缆的能耗”。 机柜中计算机刀片的降温采用了液体冷却。惠普企业高性能计算和人工智能系统副总裁杰拉尔德•克莱恩(Gerald Kleyn)表示,这台超级计算机的密度能够达到传统风冷结构的5倍。其结果是,这种紧凑的系统反过来大大降低了布线要求和运行费用。 “突破百亿亿次计算的门槛很重要,同时位列全球绿色500强第二更是非凡。”克莱恩说。此外,他说,在疫情期间和全球性供应链问题的环境下,实现这一点“全靠美国橡树岭国家实验室、惠普企业和AMD之间强大的团队合作”。 Frontier下一步的工作包括继续测试和验证该系统。该实验室表示,2022年后期将继续进行最后验收和早期科学应用,计划于2023年初全面开放应用于科学项目。 已经计划在Frontier展开的项目包括癌症研究、药物研发、核聚变、特殊材料、超高效引擎和恒星爆炸。这台机器的目标是将完成这类工作所需的时间从几周缩短到几个小时,从几个小时缩短到几秒。

“Frontier可帮助科学家们开展更多的科学研究,这意味着更接近高效清洁能源,更快发现有效的病毒疫苗。”麦克雷迪说,“Frontier成为首个百亿亿次级计算机,这是我们整个征途的开始。看到美国橡树岭国家实验室的研究人员致力于解决气候、能源和疫情方面的问题,以及人类面临的其他重大挑战,我们已经从制造一台强大的计算机走向想要制造一些对每个人都有帮助的东西。”

编辑:黄飞

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分