Zettascale仍是妄想？HPC不得不面对的成本问题

基于树莓派的自动驾驶 2023-05-19 1616

描述

电子发烧友网报道（文/周凯扬）要说HPC对更高算力等级的追求，往往在很长一段时间之前就开始了，比如最近才开始冒头的Exascale超算，其实也是从2007年左右才开始规划的，直到去年才有了Frontier的出现，以及将在今年上线的Aurora和El Captitan超算。其中经历了不少阻碍，比如处理器的设计问题、供应链的短缺加上正式上线前持续的优化等。

然而，在达成了一个目标后，我们就会忍不住去设想下一个目标，Zettascale到底离我们有多远？到了现在我们也都知道，肯定不会像Intel前图形部门负责人Raja Koduri说的那样，在2027年左右实现。可我们也都知道现在是一个算力指数增长的时代，为何真正的Zettascale系统却还要那么久才能出现呢？除了技术演进外，自然就是成本问题。

规模硬件成本

首先考虑到的就是规模成本，目前的Exascale级别系统中，拥有成千上万个节点已经不是什么稀奇事了，而作为Exascale千倍的Zettascale系统，除非通用算力有了飞跃式的提升，不然这样的规模化部署即便是大型云服务厂商或国家实验室都难以负担。

就已上面提到的Frontier为例，这台超算由9472块AMD Epyc 7453 CPU和37888块Radeon Instinct MI250X GPU组成，单是硬件成本就达到了6亿美元左右。同样，如此庞大规模的系统在运营规模上也不可小觑，根据超算实验室负责人透露，在这类机器上运行应用程序两周的成本大概在700万美元。

以上还只是规模化的计算硬件成本，每一个超算系统还要考虑到规模化的电源、冷却和线缆带来的成本。如果节点数量翻倍的话，以上附加硬件费用也都要统统翻倍，甚至可能会指数级上涨。

至于可用的规模化量子计算超算，解决药物代谢之类的复杂科学问题，那需要的物理量子位可能要在千万级以上，总的硬件成本范围大概在50亿美元和200亿美元之间。可以说，如果无法把这个成本降下几个数量级，那么为HPC付出的成本代价势必会令所有人退却。

设计成本

要想及时进入Zettascale时代，直接购买第三方供应的处理器必然是最省事的，但对比近来几个超算系统的部署进度，供应商不一定能保证按时交付，有太多因素会影响到原本的部署计划。而且这种方式因为其通用性缺失省了不少麻烦，却不一定省钱。那么自研处理器是否会是更加省钱的方法呢？

以日本的富岳超算为例，虽然该系统整个项目的成本达到了10亿美元，但其中包括了A64FX这一ARM CPU的设计与硬件成本。更不用说同样的架构未来可以用于打造下一代超算系统。而不需要购买时下昂贵的第三方处理器。

拥有同样想法的还有印度政府，他们为国内超算系统打造的AUM处理器同样采用了ARM架构，甚至由于采用了96核的Arm Neoverse V1设计，并采用了台积电的5nm工艺，在性能上甚至要高于A64FX。

可由于采用了先进工艺，其设计成本本身就很难降低下来，以目前的市价来看，台积电N5节点的设计成本大概在5亿美元，所以如果不是真的打算把自研一直走下去，这种方法反而是最费钱的一种。

小结

我们是靠吃到了工艺、设计双双爆发的红利，才能以这么快的速度进入了Exascale时代，至于64位下的Zettascale系统，我们很可能还是要等到2035年才能得见真容。但这并不代表我们不能从现在开始准备，虽然离部署还很遥远，但对各大处理器和架构的评估，其实早就在各大研究机构中开展了。尤其是随着AI负载的加入，任何HPC系统都必须决定未来通用计算与AI计算各自的占比，并研究专为AI打造的一套全新HPC应用程序。

打开APP阅读更多精彩内容