被忽视的国之重器：高性能计算那些事儿

智能计算芯世界 2022-12-02 1979

描述

高性能计算机(HPC，High Performance Computer，又称超级计算机)是国之重器。从核爆炸模拟、油藏模拟，到极端天气预报等，高性能计算都守护着国家安全和安宁。因此，高性能计算也成为衡量国家之间综合实力的基准之一，被视为国家实力的象征。

2020 年以来，十四五和新基建驱动我国高性能计算中心建设进入高速增长期，多地地方政府和企事业单位都在积极建设和筹建高性能计算中心。

1、被忽视的国之重器：高性能计算那些事儿

2、高性能计算：不断取得新进展，国产替代未来可期

想象一下，新药的研制时间从数年缩短至数天。高性能计算机 (HPC) 通过模拟、建模和分析，可以轻松解决这类以及更多其他科学难题。高性能计算系统帮助人们解决世界上最棘手的难题，引领人类走向“第四次工业革命”。高性能计算系统现已广泛用于：

寻找全新的药物化合物并测试已知药物组合，从而更好地治疗不同种类的癌症和其他疾病

模拟分子动力学以开发新材料，如防弹纤维织物

提前预测重大天气变化，使受影响的地区做好准备

超级计算机代表着高性能计算系统最尖端的水平。随着处理能力的不断演进，超级计算机的认定标准也会不断提升。单个超级计算集群可能包含数万个处理器，使用全球最昂贵且最强大的系统，成本高达 1 亿美元。

高性能计算

高性能计算的工作原理

在高性能计算中，处理信息的两种主要方式为：

串行处理，由中央处理器 (CPU) 完成。每个 CPU 核心通常每次只能处理一个任务。CPU 对于运行各种功能而言至关重要，如操作系统和基本应用程序(如文字处理、办公生产力工具等)。

高性能计算

并行处理，可利用多个 CPU 或图形处理器 (GPU) 完成。GPU 最初是专为图形处理而设计的。它可在数据矩阵(如屏幕像素)中同时执行多种算术运算。同时在多个数据平面上工作的能力使 GPU 非常适合在机器学习 (ML) 应用任务中进行并行处理，如识别视频中的物体。

高性能计算

突破超级计算的极限需要不同的系统架构。大多数高性能计算系统通过超高带宽将多个处理器和内存模块互连并聚合，从而实现并行处理。一些高性能计算系统将 CPU 和 GPU 结合在一起，被称为异构计算。

计算机计算能力的度量单位被称为“FLOPS”(每秒浮点运算次数)。截至 2019 年初，现有的高端超级计算机可以执行 143.5 千万亿次 FLOPS (143 × 1015)。此类超级计算机被称为千万亿次级，可以执行超过千万亿次 FLOPS。相比之下，高端游戏台式机的速度要慢 1,000,000 倍以上，可执行约 200 千兆次 FLOPS (1 × 109)。超级计算在处理和吞吐量方面的重大突破很快将会实现超级计算的下一个重大级别——百亿亿次级，该级别的速度比千万亿次级约快 1,000 倍。这意味着百亿亿次级超级计算机每秒将能够执行 1018(或者 10 亿 x 10 亿)次运算。

高性能计算

“FLOPS”是对理论处理速度的描述，实现该速度需要连续向处理器传输数据。因此，系统设计必须考虑到数据吞吐量这一因素。系统内存以及处理节点之间的互连会影响数据传输到处理器的速度。

高性能计算

为了实现1百亿亿次级 FLOPS 的下一级超级计算机处理性能，大概需要 5,000,000 个台式机。*假定每个台式机具备 200 千兆次 FLOPS 的能力。

术语知识

高性能计算 (HPC)：一个广义上的强大计算系统，其范围涵盖简单计算机(如 1 个 CPU + 8 个 GPU)，乃至世界一流的超级计算机

超级计算机：最先进的高性能计算机，以不断提高的性能标准为依据

异构计算：优化串行 (CPU) 和并行 (GPU) 处理能力的高性能计算架构

内存：在高性能计算系统中为实现快速访问而存储数据的地方

互连：可令处理节点互相通信的系统层;在超级计算机中存在多个级别的互连

千万亿次级：为达到每秒执行千万亿次 (1015) 运算而设计的超级计算机

百亿亿次级：为达到每秒执行百亿亿次 (1018) 运算而设计的超级计算机

高性能计算是什么?

高性能计算是指将多个计算节点组织起来，通过网络连接在一起，进行协同工作，组成一台性能更强大的计算机，通常指具有极快运算速度、极大存储容量、极高通信带宽的一类计算机。高性能计算能够让整个计算机集群为同一个任务工作，以更快的速度来解决一个复杂问题。一台高性能计算上往往执行一个任务(或者有限的几个任务)。全部的计算机资源都被倾注到同一个任务中。为了解决同一个问题，集群的不同计算机之间要有非常好的沟通能力。

高性能计算

高性能计算机是计算机和网络的结合。假设说互联网从外部将分立的计算机连接在一起，那么集群则是将网络内部化，让网络成为系统内部不同计算机的沟通桥梁。首先创造性发明集群的是有“高性能计算之父”之称的 Seymour Cray。在 1960 年代，可以进行高性能运算的仅仅是经过特别设计的、昂贵的大型机。这些大型机需要复杂的回路以实现高运算频率，所以其设计和生产周期都非常长。Seymour Cray 提出并行是提高计算机性能的有效方式。1964 年，Seymour Cray 研制的 CDC 6600 问世，他将多个普通的处理器连接起来，并使得这些处理器协同工作。政府和科研部门开始采购这样的新型的高性能计算机，以代替原有的大型机。高性能计算机为登月计划等大型科研项目做出了不可磨灭的贡献，开启了高性能计算技术和产业多年的持续发展与繁荣。

高性能计算近 60 年的演变路线可简单地分为 2 个阶段：Cray 时代和多计算机时代。

(1)Cray 时代。从 20 世纪 60—90 年代初期的 30 年被称为“Cray 时代”，以单一内存向量机的技术革新为主导，Cray 定义和引领了前 30 年的高性能计算市场。第一个30 年研制以“顶天”为主，仅服务于国家战略部门。

(2)多计算机时代。从 20 世纪 90年代迄今的后 30 年被称为“多计算机时代”，由于微处理器的出现，以及大量工业标准硬件的普及，以大规模互连多个通用乃至商用的计算部件的可扩展系统结构的技术创新主导了迄今为止的高性能计算发展。后 30 年的高性能计算机在满足国家战略应用对性能巅峰需求的同时，“立地”成为发展的主要目标，市场驱动、高性能计算应用普及成为第二阶段的显著特点。

高性能计算

高性能计算为什么重要?

高性能计算是计算机科学与工程的“皇冠”。高性能计算是计算机技术的源头之一。互联网产业依赖的数据中心的核心技术，诸如 Hadoop 等并行编程工具和 RDMA 等远程通信技术大多脱胎于此。因此，高性能计算机被视为计算机科学与工程的“皇冠”。各国均频繁从国家层面启动研制计划。在中国多次上榜全球高性能计算 TOP500 后，美国自2015 年起将多所中国高性能计算相关机构或企业列入实体清单，包括国防科大、无锡江南计算技术研究所、曙光、申威等。而我国高性能计算整体实力和美国相比仍然有较大差距。因此，发展自主可控的高性能计算至关重要。

高性能计算

高性能计算的核心能力是 64 位双精度浮点运算能力。高性能计算是一种通用算力，其设计目标是提供完备、复杂的计算能力，在高精度计算能力更强。业界广泛用于衡量高性能计算性能的 Linpack 测试，测试的是高性能计算的“双精度浮点运算能力”，即 64位浮点数字的计算(FP64)，这是一种高精度的数值计算。在以二进制所表示数字精度中，还有单精度(32 位，FP32)、半精度(16 位，FP16)以及整数类型(如 INT8、INT4)等。数字位数越高，意味着人们可以在更大范围内的数值内体现两个数值的变化，从而实现更精确计算。

高性能计算在底层芯片性能要求上高于普通的数据中心和智算中心。算力中心有多种，大致可分为数据中心、高性能计算中心、智算中心等，而它们都可以用云的形式来提供服务。以实现人工智能需求为例，推理、训练和模拟为 AI 的三类主要任务。在此维度上，芯片的应用上限由其底层构造所决定，即使采用软件优化也无法再提升。从芯片层面来看，如果底层芯片采用的是 CPU+专用 AI 芯片，那么其只能完成 AI 推理和训练任务，而无法完成模拟。因为 AI 芯片无法实现双精度浮点运算，双精度浮点运算大量涉及线性代数方程求解，而自然界的很多问题，包括科学问题、社会问题等，最后都可转化为线性代数方程求解问题。

高性能计算

高性能计算的体系结构设计和软件同样重要。芯片是高性能计算的重要组成部分，但不是高性能计算技术的全部。高性能计算不是简单的 CPU 堆砌，体系结构设计、高速互联网络、并行文件系统、储存列阵等方面如果有所欠缺，即使堆再多的 CPU，高性能计算性能也无法提高。随着计算能力的增强、应用课题规模和复杂度的增加，高性能计算机对并行文件系统等性能要求越来越高。高性能计算的技术溢出效益非常明显。由于服务器可以平滑地采用高性能计算的互联技术、CPU 技术、操作系统技术和并行软件设计等技术，在高性能计算方面的积累能够自然地溢出到服务器产业。

高性能计算主要应用于哪些场景?

高性能计算适用于需要并行运算的任务，应用场景持续拓展。高性能计算主要应用场景分为两类，一类是飞行器设计、核模拟实验、星云模拟、解密码等数值模拟场景，一类是大数据分析、统计和人工智能等数据分析场景。由于飞行器等工程设计中很多情况无法实测，只能进行计算模拟，因此美国对出口高性能计算十分谨慎。高性能计算应用正在从过去的高精尖向更广更宽的方向发展。随着高性能计算的发展，尤其是使用成本的不断下降，其应用领域也从具有国家战略意义的核武器研制、信息安全、石油勘探等科学计算领域向更广泛的国民经济主战场快速扩张，比如制药、基因测序、动漫渲染、数据挖掘、金融分析以及互联网服务等等。

从 2021 年 11 月中国高性能计算机 TOP100中的行业应用领域 Linpack 性能份额来看，算力服务、高性能计算中心、人工智能、科学计算等领域是高性能计算的主要用户，互联网大数据特别是 AI 领域增长强劲。

高性能计算

高性能计算的市场空间有多大?

十四五和新基建驱动高性能计算进入快速增长期。2021 年 3 月，我国“十四五规划”中明确提出，要“加快构建全国一体化大数据中心体系，强化算力统筹智能调度，建设若干国家枢纽节点和大数据中心集群，建设 E 级和 10E 级超级计算中心。”根据规划，合肥、兰州、厦门、太原等地多地都将陆续建立高性能计算中心。

2022 年中国整体高性能计算市场规模将超 400 亿元。除政府规划外，阿里、腾讯等多家互联网巨头均积极布局高性能计算建设。以腾讯为例，其于 2020 年 6 月正式开工的长三角人工智能高性能计算中心投资超 450 亿元，建成后将承担各种大规模 AI 算法计算、机器学习、图像处理、科学计算和工程计算任务。此外，金融机构、运营商等均在积极部署自己的高性能计算。根据观研天下预测，2022 年中国高性能计算行业总体市场规模将超 400 亿元，2021-2025 年 CAGR 为 13%左右。

高性能计算市场竞争格局稳定

联想、曙光、浪潮市占率分列前三。从中国高性能计算 TOP100 中主要公司系统个数统计来看，2002 年之前，TOP100 主要是国外的 HP、IBM 为主，后期以中国的联想、曙光和浪潮为主。中科曙光在 1998 年完成 863 项目“曙光 2000”可扩展机群体系结构的超级服务器，2001 年完成“曙光 3000”超级服务器后，从 2005 年开始，市场竞争开始有突出表现，曙光 2010-2019 年连续 10 年按装机台数市场份额第一，2019 年占到接近 40%。浪潮在 2012 年完成“863 计划”容错服务器项目后，2014 年开始有明显起色。联想公司通过 2014 年对 IBM 公司 X86 HPC 产品线的并购，市场份额异军突起，到 2021年已实现 TOP100 装机台数份额第一。而联想、浪潮、曙光中，只有曙光拥有从芯片等硬件到软件系统的国产自主知识产权。

高性能计算

“东数西算”工程落地有望进一步促进西部地区发展高性能计算中心。2022 年 2月，国家发改委批复同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等 8 地启动建设国家算力枢纽节点，并规划了 10 个国家数据中心集群。至此，全国一体化大数据中心体系完成总体布局设计，代表着“东数西算”工程正式全面启动。西部有风力发电、光伏发电，能源丰富，而且年平均气温比较低，十分适合计算中心的生存，而高性能计算业务对实时通讯的需求不高，未来高性能计算中心有望成为优化算力布局的重要载体。

审核编辑：汤梓红

打开APP阅读更多精彩内容