对于每个多家的超算系统来说,能占据TOP500超算榜单的前十是一项极大的荣誉。然而随着美国、日本、欧洲与中国的E级超算计划纷纷提上日程,超算系统功耗墙的问题也开始显现,一台E级超算系统带来的功耗已经再也无法被忽视了。而早在2013年开始发布的榜单GREEN500,则开始按能效比进行排名,为的就是鼓励各国各厂商开始高能效比的超算设计。
国产超算面临的功耗问题
在面临功耗墙的挑战时,国内超算又是如何解决的呢?这个问题尤其困扰着排名前列的几大研究型超算,比如国家并行计算机工程技术研究中心研制的神威太湖之光超级计算机。毕竟如果只拼性能,不看功耗,与超算的设计理念其实是背道而驰的。
我们看前十的超算中,乃至前100的超算中,基本都是采购AMD、英特尔和英伟达的硬件,再交由HPE、联想、浪潮等厂商打造整个超算系统。这对于不涉及生产制造的一些研究中心来说,可以说是一个投入大成本但省去麻烦的选择。对于他们来说,在功耗上也能收获好处,那就是这些硬件厂商往往已经在设计之初考虑到了低功耗,而且也有完备的电源、功耗管理方案。
但这些方案对于我国的研究型超算来说就不太适用了,且不说国内各大超算中心已经进入实体清单,根本买不到这些处理器。再者此类方案也无法套用在自研的神威太湖之光上系统上,因为这台超算所用的不是商业组件,也不是传统的x86多核架构,而是申威26010处理器的众核架构。
神威太湖之光超级计算机 / 国家超级计算无锡中心
申威26010处理器在开发之初就用上了低功耗设计,比如其结构就是通过集成众多核心来提升性能,降低单核最高工作频率的要求,从而避免了蹿升的功率。而且在众核架构下,其核心还支持深度睡眠、浅睡眠和低功耗等运行模式,避免了无工作负载的核心带来额外的功耗。除了逻辑部分以外,其缓存、I/O也都采用了低功耗的设计,使得整个260核处理器的峰值功耗只有不到300W。
但单靠芯片上的低功耗设计是没法将整个超算系统的能效提上去的,从最新一期的GREEN500榜单中,就展现了我国的超算在能效上明显已经开始落后于人了。使用申威26010处理器的神威太湖之光在TOP500的性能排行榜上排名第六,但在GREEN500上却只有61名的成绩。
同样的还有天河2号,这台超算作为曾经的骄傲,如今仍在TOP500上占据了第九的席位,但在GREEN500上就已经落到百余名之后了。难不成国内的顶尖超算真的就无法高性能与低功耗兼得吗?
下一代E级神威和E级天河
这两台超算背后的团队并不是没有发现功耗问题,而他们将解决这些挑战的手段都放在了下一代E级的超算开发上。在7月份的《计算机学报》中,国家并行计算机工程技术研究中心的几名研究院发布了神威E级原型机所用到的功耗管理技术。而这一次,E级的神威系统用上了软硬协同的多层级功耗管理,包括从基础设施、编译和细粒度上开展功耗优化。
神威E级原型机换上了全新的申威26010+众核处理器,同样是4个运算控制核心+256个运算核心的260核配置。在神威的E级原型机上,两个处理器构成一个节点,整个系统由512个节点构成,峰值性能达到了3.13PFlops。
神威E级原型机用上了低功耗编译优化技术,基于硬件低功耗指令,通过指令调度/指令插桩,针对低功耗循环优化和调度优化,来节能降耗,从测试结果来看,降低了10%的功耗。不仅是芯片,神威E级原型机还用上了节点级、作业级乃至系统级的功耗管理。比如在节点层面上,如果计算阵列无任务时,系统会选择断开阵列时钟,实现阵列睡眠,节约节点功耗的63%。
至于基础设施上的节能,还是在供电和冷却上,文章中只提到了供电系统上的节能优化,比如利用系统功耗量化监测来完成高效电能变换等。而冷却系统上的优化我们已经在神威太湖之光上看到了一部分,那就是增加水泵变频器等自动化控制系统,实时调整输出保证高速运转。
至于E级的下一代天河超算“天河3号”,其实也早已通过原型机/验证系统在能效上展现了不错的成绩,但并不是通用计算,而是大数据图计算。在今年六月公布的大数据图计算能效比排名Big Data Green Graph500上,天河E级原型机系统提交的新成绩再度打破纪录,夺下了第一名的位置,甚至是在同样的核心数量下,超过了第一次提交成绩近50%。
仅仅只是高能效还不够?
接着,我们来聊聊另一个超算的能耗问题,此次我会不以在GREEN500并列第一第二的Frontier单机柜/超算系统为例,而是带大家看看排名第三,但硬件架构与Frontier基本一致的欧洲超算LUMI,之所以选择这台超算,也是因为它在功耗管理上有着一些独到之处。
LUMI配备了AMD第三代EPYC 64核CPU和Instinct MI250X GPU,与Frontier相同,但在规模上还是不比后者。这台由欧洲高性能计算联盟(EuroHPC)和LUMI联盟成员国出资打造的机器,将能效比做到了51.6GFlops/W的高度,略逊于52.227GFlops/W的Frontier,但这个第三名已经足以自证实力了。
固然这些超算的能效比和PUE(数据中心能源效率指标)结果都相当惊艳,但如今围绕这一榜单的争论也开始出现,那就是供给超算系统的能源究竟从哪来?究其缘由,我们之所以想要提高超算的能效比,就是为了不断减少其庞大系统带来的碳足迹。但设想一下,如果一台超算拥有极高的能效比,但其能源却是完全来自煤电,这样的话在减少碳足迹上起到的作用可以说微乎其微了,而这也是LUMI这台超算区别于其他超算的地方。
LUMI超级计算机 / LUMI联盟
LUMI超算选择了芬兰的卡亚尼市的一家旧造纸厂废弃后的棕地开建,这是因为对于严寒的北欧国家来说,如果重新选择一块绿地的话,短暂的夏日会使得建设时间缩短,进而拖慢项目进度,况且建设本身也是一个高碳排放的过程。还有一个原因,那就是该地区已经接入了芬兰国家电网的线路,可以为他们实现100%的纯水电供应,最高可达1000多MW,不仅如此,LUMI还有来自风电场的额外馈电线路。
除去可再生能源,LUMI也能将散发的多余热量出售给卡亚尼市,单靠LUMI的废热,就能解决卡亚尼市周边20%的区域供热,还能多赚一笔,降低了运营的净成本。如果只算超算运营的话,LUMI超算甚至可以看成是“负碳足迹”的,这也是欧洲本土能源发展多年来的成果,LUMI在享受其能源福利的同时,也对本地的能源供应做出了贡献。
写在最后
固然通过以上这些信息,让我们对未来国内E级超算的能效比有了信心。不过以上这些还只是基于原型机实现的能效比提升,多个节点组成的超算系统由于引入了额外的功耗,而且性能也不是单纯的线性提升,所以在能耗比上还是会有些许下降的,这点从Frontier和富岳两台超算上也能看出。
单机柜的Frontier TDS在GREEN500上排名第一,能效比达到了62.684GFlops/W,而整个Frontier 超算系统位列第二,能效比降为52.227GFlops/W,能效比有了16.7%的下降。而富岳的A64FX原型机在2020榜单上的能效比为16.285GFlops/W,而整个富岳超算的能效比为14.665GFlops/W,降低了10%左右。虽然下降的幅度不多,但相较整个超算系统整年的功耗来看,还是相当庞大的。
再者就是能源供给上的改造,无论是济南超算中心,还是天津超算中心,都可以先在超算项目上先行开展光伏、风能等可再生绿色能源的供电改造,为下一代神威、天河在基础设施的节能减碳上做好铺垫。