电子说
11月15日,北京,中国超算“放榜日”。
随着第二届中国超级算力大会的举行,2020中国高性能计算机性能排行榜TOP100揭晓。
榜单的前2位已经五年没有发生更迭,还是熟悉的两个“前全球第一超算”——“神威·太湖之光”和“天河二号A”,它们分别部署在国家超级计算无锡中心和国家超级计算广州中心(注!5年间机器有升级)。
榜单的第3、4位是新面孔。
其中,排在第3位的是北京超级云计算中心(A分区)。其设备供应方为戴尔科技集团,Linpack测试性能达3.743PFlops,峰值性能达7.035PFlops,采用AMD最新的霄龙处理器“罗马”为其提供澎湃算力。北京超级云计算中心由中国科学院与北京市政府共建,位于北京市怀柔科学城。
榜单第4位是部署在内蒙古和林格尔新区的“内蒙古高性能计算公共服务平台”,建设方为清华同方;5~10位由联想深腾8800系列占据。排在榜最后一位的机器性能为1.869PFlops,较去年最后一位性能提升33.2%。
此次榜单看起来虽然变化不大,但综合分析来看,仍有不少亮点。
1.国家超算的大国重器地位不动摇
榜单前两位无锡超算和广州超算,是国家超算的杰出代表。
众所周知,两台设备都曾在全球超算TOP500排行榜上排名第一。其中,天河二号(含升级后的天河二号A)在2013年6月~2015年11月,连续六次在TOP500排名第一;神威·太湖之光在2016年6月~2017年12月,连续四次在TOP500排名第一。
当然,两大国家级超算的贡献绝不止于TOP500的排名,二者对于推动我国超大规模计算机的研制、部署、软件开发、应用等方面同样居功甚伟。
以神威·太湖之光为例。
自2016年该机器夺得全球第一超算的桂冠后,当年,我国科学家杨超等人就凭借运行在其上的千万核级应用,首次摘得“高性能计算领域的诺贝尔奖”——戈登贝尔奖。这一最高奖项在此前的近30年中,一直被美国和日本垄断。
此后的2017年,青年科学家付昊桓等人再次凭借基于神威·太湖之光的应用“非线性地震模拟”帮助中国蝉联“戈登贝尔奖”。
连续两年将“戈登贝尔奖”收入囊中,对于推动我国超算应用发展、提高我国超算软实力,甚至提振中国超算士气方面都有着重要意义。
当然,作为国之重器,国家超算在承担加速学科交叉和信息化发展、加速产业转型与融合升级、培养复合型人才等国家使命方面也扮演着重要的角色。
就拿“天河二号A”来说,多年来一直向大气—海洋环境模拟、天文地球物理、工业设计制造、生物医药健康等方面给予算力和计算应用支撑。
2.通用和行业超算是重要补充
国家级超算都是大家伙、重武器,能够负载万核、十万核甚至千万核以上应用。但是,在“国民经济主战场”,更多的应用是无法企及国之重器这样的高度的,这也要求超算不能只是“王谢堂前燕”,还要“飞入寻常百姓家”。
简单来说,国家超算是国家战略计算装备,不仅要有,还要尽量“大”,和世界一流水平同频共振;而用于各行各业、作为生产工具的通用超算、行业超算,也同等重要,但这类设备追求的不是“大”,而是要追求通用、易用、好用。
这次Top100榜单排在第三位的北京超级云计算中心(A分区),别看它排名靠前,但它是不折不扣的、服务千行百业的通用超算,是国家超算重要的算力补充。
鉴于这一集群系统的代表性,加之此前该集群非常低调,只有很少的公开信息,今次本文以相对长的篇幅做一些介绍和分析。
北京超级云计算中心(不要被名字迷惑,它不是我们常说的云计算,而是以云服务形式提供超算算力的平台)于 2011 年依托中科院计算机网络信息中心成立,北京北龙超级云计算有限责任公司负责运营,位于怀柔科学城。
本次上榜的是北京超级云计算中心的A分区(关于为何“分区”,后文详述),算力规模为3.743PFlops,全部为通用X86超算。
通用X86超算在圈内又被称作“纯CPU通用算力”,这类算力资源,由于生态完善、代码可移植性强等原因,用户友好度非常高。
更值得一提的是北京超级云计算中心提供算力的模式。正如其名,该中心以随需供应的“超级云计算服务”的模式向用户提供算力,这是其最大的特点。
前面说超算要从“旧时王谢堂前燕”“飞入寻常百姓家”,怎么飞?北京超级云计算中心的实践证明,“超级云计算服务模式”就是一种行之有效的方式。
来看几个例子。
3.“超级云计算”的几个案例
成立于1998年的“金风科技”,是我国风电事业发展的亲历者和推动者。金风科技打造的仿真软件“风匠”系统,是一款“更适合中国风资源特征的仿真软件”。依托北京超级云计算中心支持,金风科技以北京超级云计算中心A分区为主资源,进行风资源评估相关的业务生产和产品研发。
为了满足金风科技不同业务部门需求,在计算资源方面,北京超级云计算中心为其提供了独占、包核时等使用方式,同时提供数量和类型丰富的配置资源,这保障其能够通过弹性扩展,有效支撑高峰—平峰使用需求。
“经在A分区的测试和日常生产使用,总体计算性能和速度,有明显提升。”
金风科技相关负责人在用户试用报告中写道:“在技术支持和资源效能方面,基于我方系统需求,提供了多种接入方式和技术支持,并提供了专属的技术支持人员提供资源。在使用A分区资源计算过程中,系统未出现问题。”
提供以独占、包核时的灵活使用模式来满足计算资源需求,除金风科技之外的受益者,还有一长串名字。
这其中就有自然资源部海洋环境科学与数值模拟重点实验室。其首席科学家宋振亚说,A分区计算速度快、节点数量多、通信性能高、并行可扩展性好,而且可通过多种方式使用,高效、便捷。
同时,该实验室以万核规模经过一周以上的不间断运行,系统也没有出现问题,计算数据经过验证,结果正确,“说明该系统运行稳定可靠”。宋振亚说,他们有计划下一步将自主研发的短期气候预测系统也移植到北京超级云计算中心A分区开展业务运行。
中科院院士、中科院物理所研究员向涛团队课题组,是我国在凝聚态物理研究方面的重要力量,他们课题组长期致力于“张量重正化群方法”的发展和应用。而要发展和应用这种方法所需的算力,不仅须满足多核心并行,还要有大的内存支撑。
北京超级云计算中心A分区的计算资源,单节点64核心、内存高达256G,恰能满足向涛院士课题组对计算资源的要求。很快,A分区就成了该课题组科学研究的有力工具。
“我们体会到了省时省力。”
向涛院士课题组研究人员评价说,A分区的存在,简化了计算资源的维护、降低了调试成本,打破了他们一开始对计算资源运维的“心理恐惧”。
上边这3个案例,都是本次榜单上北京超级云计算中心A分区的“光荣事迹”。
前面也有提到,A分区只是北京超级云计算中心的一个主力分区,除A分区外,北京超级云计算中心还有T分区、M分区、IO分区,还有科技云9分区、12分区、15分区、17分区、19分区等等。
为什么要划分这么多分区?
对于超算的需求方而言,他们对超算的需求是多种多样的——有的需要更燃的计算,有的需要更多内存,有的需要更快的数据传输。而所有这些分区,都是因向对计算资源有不同需求的用户提供更便捷高效的服务而存在的。
北京超级云计算中心还在不断动态扩容、不断“分蘖”,也显示了其以用户服务为核心,“将超级云计算服务模式进行到底”的决心。
4.中国超算既要“捅破天” 还要“接地气”
超算是重要的基础工具。没有“神威·太湖之光”、“天河二号”、“曙光星云”等这些大国重器,我们就无法实现尖端科技的突破,无法不断向科学技术广度和深度进军。
但同时也应看到,我国经济社会的进步、各行各业升级发展的需求日益迫切,也在呼唤能够更接地气的海量计算应用,呼唤北京超级云计算中心、阿里云、华为云等一系列能够提供超级算力、提供计算服务、提供大数据处理能力的行业贡献者。
还应指出的是,“计算”作为一种支撑和工具,它还只是先进生产力链条中的一个环节。在计算之外,数据的采集与处理、软件的设计与调优、模型模式的开发等等,需要行业内外更多人的参与。
今天榜单上的所有集群,都只是超算作为硬件形态的一个体现。这一个个的“大家伙”要变成真正的生产力,需要跨越超算硬件与应用之间的“死谷”。
北京超级云计算中心在解决这个问题上想到和实践的方法是“超级云计算服务模式”,但这就够了吗?
美国在超算部署上一直有制定详尽的计划。从国家战略计算计划(著名的NSCI计划),到美国能源部制定实施的百亿亿次计算研发项目(ECP计划),都强调多部门协同、更重视应用。
特别是ECP计划,美国计划5年投入“18亿美元+18亿美元”,一半用于E级计算机研制,一半用于研发应用。
超算行业专家、中山大学数据科学与计算机学院院长钱德沛曾总结中国超算应用上的弱点:缺乏应用软件、缺乏人才、缺乏有效合作。说到底,我们更需要一个完善的“超算用起来”的环境。
无论国家超算、通用超算、行业超算、商业超算,存在形态真的无大所谓,可以兼容并收,但要用起来。只有形成了一个健康的应用生态,中国超算,才算真的顶天立地。
责任编辑:xj
全部0条评论
快来发表一下你的评论吧 !