模型“狂欢”之下，算力之困何解？

算力基建 2023-08-23 1785

电子说

1.4w人已加入

描述

“百模大战”愈演愈烈，AI产业化前夜似乎已在不知不觉中来临。海量数据爆发，计算量指数级增长，传统基础设施架构下的算力已经无法满足模型时代的需求。据OpenAI测算，全球AI训练所用的计算量呈现指数级增长，平均每3.43个月便会增长一倍，目前计算量已扩大30万倍，远超算力增长速度。国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》显示，当前我国超过30个城市正在建设或提出建设智算中心，但仍然无法满足相关需求。模型建设究竟需要多少算力？如何更大程度挖掘出现有算力的潜力？又该如何通过优化资源调度让算力价值最大化？模型“狂欢”之后，是时候回归“冷静”了。

01. 供需失衡下的算力之困

打造一个AI大模型究竟需要多少算力？公开数据显示，ChatGPT初始所需的算力就是1万块英伟达A100（一种AI芯片），价格超过7亿元。后续的调优训练每天消耗算力大概是3640PFLOPS，需要7至8个算力达500PFLOPS的数据中心支持，建设成本约为三、四十亿元。

“大模型的用户量、访问速度、网络带宽、训练模式等都会影响到其算力需求的大小。”中国科学院计算技术研究所研究员张云泉在接受《中国电子报》记者采访时表示，“要训练一个中国版的ChatGPT，首先要部署价值至少7亿元的硬件设施，还要准备大笔训练调优的费用。”

腾讯云异构计算产品负责人宋丹丹对《中国电子报》记者介绍称，大模型对算力的要求分为训练和推理两个阶段。训练需要短时间内的并行算力，而且要在短时间内能够做到交付，对算力的量、算力的稳定性和性能、弹性扩缩容能力有高要求。进入推理阶段，对于单位算力的性价比、成本、算力所处的位置、端应用服务是否能够快速连接等要求比较高。这就要求企业具备海量的可扩缩容的高性能算力，并且这些算力能够稳定交付。

近日，广发证券对国内AI大模型的训练和推理阶段算力需求，以及相应的成本进行了测算。结果显示，在暂不考虑软件层面算法优化带来的模型消耗算力成本下降的前提下，国内大模型在训练与推理阶段或将产生相当于1.1万台或3.8万台（乐观假设下）高端AI服务器的算力需求，以单片A100售价10万元、AI加速卡价值量占服务器整机约70%计算，则对应约126亿元或434亿元增量AI服务器市场规模。

“实际上，算力之困已经爆发了。”张云泉坦言，国内目前大模型存在技术水平不高、同质化等问题，主要是算力层面和国外差距比较大，没有算力基础，后面算法等都无法进一步发展。大模型企业不是不愿意尽快更新迭代，而是算力不够用，只能精打细算。

浪潮云首席技术官孙思清在接受《中国电子报》记者采访时表示，从通用算力到智能算力，算力需求的变化其实与场景需求密切相关。伴随模型参数规模越来越大，智能化程度越来越高，对并行计算能力以及包括存储、网络等在内的底层基础硬件能力，以及扩展性、灵活性的要求也越高。此外，算力还要与大模型本身进行更好的适配。

模型层出不穷，智能算力需求随之激增。据一些服务器厂商透露，目前智算服务器出货量已经超过通用CPU。不过，孙思清表示，未来，随着软硬件升级和大模型核心技术的提升，同等规模的大模型所需算力也许会逐渐减少。

实际上，不只是大模型，人工智能应用已无处不在。这些看得见的应用背后，皆是看不见的智能算力在支撑。如何破解算力供需失衡的新课题？业内专家普遍认为，要做“加法”，也要做“减法”。

02. 做“加法”：软硬皆施，提升利用率

“我国算力的利用率只有30%。”中国工程院院士邬贺铨坦言。工信部最新数据显示，中国算力总规模居全球第二，保持30%左右的年增长率。新增算力设施中，智能算力占比已超过50%。在多个权威市场分析机构的排名中，美国和中国都属于算力的领跑者，主要差距在于计算效率和应用水平。

提升算力供给能力是重中之重。“不同于超算需要的64位双精度浮点运算，智能算力多为32及以下的低精度运算，它是分阶段的，可以通过硬件加速来实现算力提升。”张云泉表示。比如，随着数据量的增长和计算任务的复杂化，CPU、GPU需要具备更高的计算和处理能力，存储器需要具备更大的容量和更快的读写速度。同时，算力提升还需要更大的网络带宽、速度更快的网络设备，从而更快地完成大规模数据传输和处理。

“硬件层面，CPU、GPU等核心硬件的性能越来越高，将有效提升算力供给能力；软件层面，模型算法和计算框架的优化，也能缓解一定的算力压力，减少对算力的依赖。”孙思清表示。这“一增一减”之间，算力供需平衡将找到新的出路。

“智算即异构计算。相对于只用CPU的通用计算，在服务器里CPU+GPU就是异构计算。背后的逻辑，是让最适合的专用硬件去做最适合的事。”宋丹丹表示，“对于整个算力的优化是分层级解决的。除了计算资源自身的架构和性能提升，也就是卡的迭代外，我们会在虚拟化层，通过GPU虚拟化或者计算池化等等一系列的技术，把算力做更多的多机多卡互联，然后把它以云服务、容器、Serverless或者实例的模式更灵活地对外使用。在平台层，通过任务流的模式，以深入上层服务的方式进一步优化计算效率。”

邬贺铨指出，降低算力使用门槛，才能让更多企业用得上、用得起现有的算力资源。目前国外有些企业已经把硬件服务器资源开放出来，也包括算力、算法的模型平台。而在国内，百度、阿里、华为等大企业也已开放平台，这意味着中小企业只要有意愿需求，都可以利用这些平台做数据训练。“目前国内已经意识到要让算力更简单、降低算力使用门槛的趋势。”他说道。

03. 做“减法”：化繁为简，优化资源调度

要让算力发挥更大价值，除了提升现有算力利用率，还可以通过简化算力资源匹配与调度过程的方式实现事半功倍的效果。

日前，复旦大学率先选择将智能计算平台CFFF部署在公有云上。据复旦大学“浩清”教授、人工智能创新与产业研究院院长漆远透露，有赖于公共云模式，跑在CFFF平台上的项目可享受到超千卡并行的智能算力，千卡并行的有效算力达到行业领先的92%，可拓展性达到万卡，万卡并行有效算力也可达90%。

中国工程院院士、阿里云创始人王坚指出，从计算到智算，公共云提供的是像电一样的计算服务，把算力基础设施部署在公共云上将加速推动产业步入开放发展的新阶段。在他看来，AI大模型的训练和运营需要集约化、在线的算力基础设施。集约化的算力基础设施是基础支撑，要求更高的计算并行性、更高的计算效率、更低的计算成本，并且要求适配各类专用计算芯片。在线化对算力提出更高要求，从模型训练和应用看，需要形成“用户膨胀、使用反馈、模型进化”的飞轮效应，海量用户在线使用和大规模API调用集成等都需要在线化的算力资源。这种集约化、在线化的需求，与公共云集中建设运维、弹性伸缩、按需服务的商业模式不谋而合。

“云是大模型最好的承载方式，也是训练和应用大模型的最佳平台。”宋丹丹指出，一方面，云上具备领先的软硬件架构、面向未来的技术架构和研发体系。对AI企业而言，从本地搭建服务器架构可能不是一个合适的选择。借助云上丰富的能力和产品，如云上的算力、网络、向量数据库，企业可以聚焦于大模型研发本身，业务开发的敏捷度也能进一步提升。另一方面，打造大模型需要的算力规模，对企业现金流的挑战很大。云上的算力形式，可以根据用户需求灵活分配计算资源，同时也提升了大模型的训练和推理效率。

孙思清认为，公有云集约化的特点有助于算力共享模式的实现。大模型的训练并不是一直满负荷进行的，空闲的时候，可以利用云的模式将算力池化，与其他有算力需求的企业共享。但同时他也指出，现实操作起来存在困难，数据归属、隐私保护、合规性等问题都需要考虑。

他表示，算力可以当作“水电”来用，但数据不可以。“水电”能动，但“水厂”“电厂”不能动，分布式算力并不能适用所有场景。此外，算力互联还需建立标准化的运营体系，算力如何计量、如何付费、如何结算都需要探讨。

张云泉表示，具体问题要具体分析，不能一概而论。几十亿参数规模的大模型放在云上可以，几百亿、上千亿规模的大模型肯定不行。中等规模以下的智算中心可以部署在公有云上，但大规模的智算中心如果部署在公有云上，网络延迟会很大，难以支撑高端计算。另外，运营商也会考虑到用云成本以及上云后是否会被云厂商“锁定”等问题。

他认为，优化算力调度不能光靠算力网络的互联互通来解决问题。首先要尽快推进接口协议，定义标准、建立标准；其次要优化算力调度管理软件，同时建设安全体系；此外，要选择成熟芯片和生态完善的技术路线，这样智算中心用起来效率才能达到比较高的水平。建议组建生态联合体，共同打造1~2个大规模的智算中心，协同训练少数几个通用大模型，共享算力资源。”

“未来，大模型将走向相对开放的生态，开源是一个重要趋势。”孙思清说道。他建议，政府层面应做好算力资源的统筹，重点聚焦合规性管控和集约化建设，把握好节奏，避免“一窝蜂”导致大量算力的浪费。企业层面应持续加打技术创新与场景实践力度，分工合作，协同发展。

打开APP阅读更多精彩内容