如何扩大HPC资源的使用?

描述

 

随着数据密集型问题的增长,学术研究人员对访问诸如高性能计算(HPC)等强大算力系统的需求也在增多,然而,当前HPC资源的供应尚不能满足日益增长的需求。HPC有益于不同科学和工程领域的研究人员应对重要科研挑战,推动了尖端人工智能(AI)应用的发展。但是,有限的HPC资源及其不充分利用,阻碍了研究人员开发新产品和服务的能力。我国在超级计算机方面发展迅速,达到国际先进水平,但同样需要增益超算资源的利用,以支持更多的科研和创新活动。2020年12月7日,美国智库信息技术与创新基金会(ITIF)数据创新中心发布《如何增加超算资源的访问》报告,就如何扩大AI研究人员对HPC资源的使用提出具体建议。

01

 

美国国会应在未来五年内向美国国家科学基金会(NSF)和美国能源部(DOE)提供100亿美元,以满足HPC资源的供需平衡。

在HPC基础设施方面,美国NSF从国会获得的资助额度从2010年到2019年下降了约一半,即从3.52亿美元下降到1.67亿美元。2019年的资助金额尚不足以支撑1/3的美国NSF HPC资源访问需求,如图1所示。为满足快速增长的HPC资源访问需求,在未来五年内,美国国会应将其对美国NSF HPC基础设施的资助额度提高到至少5亿美元/年。

美国DOE从美国国会获得的资助额度从2010年到2019年增加了约90%,即从2010年2.76亿美元增加到2019年5.23亿美元。但是,2019年,美国DOE HPC资源访问需求仍是供应的3倍。因此,美国国会应授权美国DOE将其对HPC基础设施的资助额度提高到至少15亿美元/年。

图1 2019年美国NSF XSEDE所需和可用服务单元对比

02

 

美国NSF应该支持代表大多数研究人员的潜在HPC长尾用户。

美国许多州拥有从事AI研究的顶级研究机构,但缺乏本地HPC资源的获取途径来进行AI研究。美国NSF应加大资助这些州的“中程HPC系统”和“中心HPC系统”。此外还应关注AI研究和HPC资源都相对贫乏的区域或机构,合理分配资助经费。

图2 HPC计算系统的四个类别

03

 

美国DOE和NSF应该更有效地分配HPC计算时间。

为了更精确的为研究人员分配HPC资源,DOE和NSF首先要了解用户的计算需求。目前提议的一些流程主要集中于给定项目所需的HPC系统计算峰值方面。但除此之外,美国DOE和NSF还需进一步了解用户所需其它HPC能力,包括互连带宽、数据长期存储等。

04

 

美国DOE和NSF应为研究者提供HPC方面的专家,以提高科研生产力。

HPC系统的使用需要专业技术人才,美国DOE和NSF应该探索如何以更有效和可扩展的方式提供HPC专业知识,以提高研究人员的生产力。例如,美国NSF应该扩展“极端科学与工程发现环境”(XSEDE)项目的良好实践,允许研究人员在申请HPC资源使用的同时申请相应时段的专业技术人员指导。这些HPC专业技术人员来自XSEDE项目的合作伙伴,他们将协助所分配的项目,以加快项目进展、达成研究目标。类似此类实践,美国DOE应为阿贡国家实验室和橡树岭国家实验室的HPC资源配备更多的HPC专业技术人员,以期同时提供给用户、提升科研生产力。

图3 2019年美国NSF XSEDE资源服务的研究领域分配情况

05

 

美国NSF应资助两年制学院开发HPC课程,促进其与四年制大学的无缝衔接。

HPC专业人员的需求日益增长,但达到技术准入门槛的合格技术人员数量明显不够。部分原因是因为两年制学院的大学预科和四年制大学之间的教学漏洞,阻碍了许多学生从事计算机科学。为了弥补这一缺口,美国NSF应该资助两年制学院和四年制大学联合开发HPC课程,确保两年制学院或社区大学的学生掌握计算机科学低年级课程,以便无缝地进入高年级学习。

06

 

美国NSF应为AI研究者提供多样化的HPC资源组合。

云计算为远程访问HPC资源提供了可行路径,突破了访问HPC资源的空间限制。美国国会应批准“国家AI研究资源任务工作组法案2020”关于NSF成立专项任务组为AI研究开发国家公共云计算资源的提议。目前,美国NSF只在一个私有云环境(Jetstream)上分配HPC资源。美国NSF应扩大HPC资源组合以提供更多的云服务,诸如投资更多的私有云、与多种公有云合作。

图3截至2019年美国NSF HPC系统和服务情况

07

 

美国NSF应制定并发布路线图,以明确未来投资方向。

下一代计算设施长期计划可以确保研究人员访问最先进的计算系统,进而确保他们具有比竞争对手更高的生产力和更快的创新速度。同时,长期计划还将为科学软件开发提供指导。美国DOE已经有此类路线图,美国NSF应该加快步伐。美国NSF应该每年收集用户需求并发布路线图,以便更好地确定HPC优先事项和战略决策。这项工作应该由美国国家AI研究资源任务工作组牵头。

08

 

美国NSF应建立更多的公私合作伙伴关系。

为实现AI研究投资回报最大化,需要有效的机制促进AI基础研究转化为市场产品和服务。目前,美国NSF已启动“创新伙伴关系计划”,资助NSF项目与工业界合作研发,旨在加速新技术向市场的转化。但是,目前该计划每年仅可以资助50个项目,美国NSF应该加大该计划的资助力度,至少增加到每年150个项目。为实施国家AI研究所计划,美国NSF已与埃森哲、亚马逊、谷歌和英特尔建立了合作伙伴关系,共同解决全国性的AI问题。此外,美国NSF应该支持区域能力发展,鼓励大学、地方企业、州和地方政府之间的合作。

09

 

美国DOE和NSF应采用新的工具和流程,以确保用户更合理和更有效地利用HPC资源。

通过分析用户对HPC系统使用情况来优化资源管理,以实现最大的HPC投资回报。美国DOE和NSF应要求所有获得HPC资源资助的机构采用审计工具,以了解它们使用HPC系统的最佳方式。此外,美国NSF还应建立中心系统机构定期审查机制和用户业务跟进机制,以及时获得反馈,进而更新HPC战略。

 

原文标题:【政策规划•算】美国智库就如何扩大HPC资源的使用提出具体建议

文章出处:【微信公众号:集成电路研发竞争情报】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分