AI大算力芯片面临的能效和成本挑战

人工智能

636人已加入

描述

因为ChatGPT,AI取得了里程碑式的胜利,甚至引爆了全社会对生成式AI和大模型技术的关注。

大模型由于参数量大、计算量大,需要更大体量的数据和更高的算力支撑,因此对芯片用量的更大需求、芯片规格的更高要求,已经成为明显趋势。同时,大模型要进一步走向通用,成为全社会必不可少的生产工具,势必需要更强的训练、推理能力,以及可接受的使用成本,而这些都在推动大算力芯片的发展变革。它一方面为AI走向通用奠定基础,反正,则可能成为掣肘。

 

AI大模型算力吞噬怪兽

以ChatGPT为代表的LLM(大语言模型),过去几年中,其规模每年约增加10倍。有研究表明,随着LLM模型规模增长,很多NLP任务效果会大幅提升。这也意味着未来的技术趋势可能是:追求规模越来越大的LLM模型,通过增加预训练数据的多样性,涵盖越来越多的领域;LLM自主从领域数据中通过预训练过程学习领域知识,随着模型规模不断增大,很多问题随之解决。也就是说,更智能的ChatGPT应用,与大模型的复杂程度和规模的进一步增加,是伴生而来的阶跃和挑战。

ChatGPT对算力的消耗主要分为三个场景:

模型预训练过程

这是ChatGPT消耗算力的最主要场景。GPT、GPT-2和GPT-3的参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB,其中GPT-3单次训练成本就高达460万美元。同时,模型开发过程很难一次取得成功,整个开发阶段可能需要进行多次预训练过程,因此对于算力的需求是持续的。

模型迭代过程

ChatGPT模型需要不断进行调优,以确保处于最佳应用状态。这一过程中,一方面需要开发者对模型参数进行调整,确保输出内容不是有害和失真的;另一方面,需要基于用户反馈和PPO策略,对模型进行大规模或小规模的迭代训练。这些都将产生算力成本,且成本取决于模型的迭代速度。

日常运营过程

用户交互带来的数据处理需求同样也是一笔不小的算力开支,ChatGPT面向全球大众用户,用的人越多,带宽消耗越大,服务器成本会越来越高。业界测算ChatGPT 单月运营需要算力约4874.4PFlop/s-day,对应成本约616万美元。

面对ChatGPT这类“吞金怪兽”,算力资源很容易捉襟见肘。根据OpenAI测算,自2012年以来,全球头部AI模型训练算力需求3~4个月翻一番,每年头部训练模型所需算力增长幅度高达10倍,AI深度学习正在逼近现有芯片的算力极限,也对芯片设计厂商提出了更高要求。

大算力芯片面临能效和成本挑战

GPU由于采用了数量众多的计算单元和超长流水线,因此更适合进行大吞吐量的AI并行计算。不过,随着大模型逐步发展,对GPU先进算力的需求在继续提升。 

面向未来更大的计算和部署挑战,单纯的算力提升已经不是最优解。AMD首席执行官Lisa Su近期提出:“在接下来的十年里,我们必须将能源效率视为最重要的挑战”。

尽管摩尔定律放缓,但其他因素推动主流计算能力大约每两年半翻一番。对于超级计算机,翻倍的速度更快。Lisa Su指出,计算的能源效率并没有跟上步伐,未来十年后的超级计算机需要多达 500 兆瓦的电力,这与核电站差不多。

正因如此,芯片系统级效率的提高被视作下一步的重点,这包括芯片节能计算、高效的芯片间通信和低功耗内存访问。Lisa Su表示,通过处理器架构、先进封装的改进,以及更好的硅技术等组合,可以使每瓦性能增长率提高一倍以上。

今年的CES展会上,AMD披露了它“迄今为止的最大芯片”Instinct MI300,这是其首款数据中心/HPC级的APU。Instinct MI300拥有1460亿个晶体管的芯片,采用Chiplet设计,拥有13个小芯片,基于3D 堆叠,包括24个Zen4 CPU内核,同时融合CDNA 3 和8个HBM3显存堆栈,集成了5nm和6nm IP,总共包含128GB HBM3显存和1460亿晶体管,有望于今年下半年上市。AMD Instinct MI300 的晶体管数量已经超过了英特尔 1000 亿晶体管的 Ponte Vecchio,是 AMD 投产的最大芯片。

AMD声称,Instinct MI300可带来MI250加速卡8倍的AI性能和5倍的每瓦性能提升(基于稀疏性FP8基准测试),可以将ChatGPT和DALL-E等超大型AI模型的训练时间从几个月减少到几周,从而节省数百万美元的电费。

“我们目前拥有的最大杠杆可能是使用先进的封装和小芯片”,Lisa Su说,“它使我们能够比以往任何时候都更紧密地将计算组件结合在一起。”

此外,高能效比也是存算一体AI芯片所擅长的,它能从架构上突破传统数据搬运方式所带来的瓶颈,实现计算效率数量级的提升。英特尔、三星等IDM厂商和新锐的算力芯片厂商都在探索存算一体芯片,并衍生出了不同的架构和技术路线。

在阿里达摩院发布的2023十大科技趋势中,多模态预测训练大模型、Chiplet、存算一体等技术都位列其中,成为算力产业下一步有迹可循的发展方向。

催生更高内存要求

受惠于ChatGPT火热,有消息称,三星、SK海力士两家内存大厂旗下HBM业务接单量大增(上文提及的Instinct MI300就采用了128GB HBM3)。

HBM(high bandwidth memory),又名高带宽内存,主要通过硅穿孔(Through Silicon Via)技术进行芯片堆叠,通过增加吞吐量的方式克服单一封装内带宽的限制,最终将数个DRAM裸片如积木一样垂直地堆叠起来。基于这种设计,信息交换的时间将会缩短。这些堆叠的数颗DRAM芯片通过称为“中介层(Interposer)”的超快速互联方式连接至CPU或GPU,最后可将组装好的模块连接至电路板,组成一款大容量、高位宽的“性能怪兽”。

早在2014年时,SK海力士就与AMD合作推出第一代HBM产品,如今已经更新到第四代产品(HBM3),还有英伟达、英特尔等企业都在采购HBM3。

与传统DRAM相比,HBM在数据处理速度和性能方面都有着更强的竞争力。SK海力士的第三代HBM已搭配英伟达A100 GPU中,第四代HBM搭载在H100中,都已开始供应ChatGPT服务器所需。

受应用拉动,第三代HBM报价飞涨,据称已是效能最高的DRAM产品的五倍之多,其市场成长率是三星、SK海力士原本预测的两倍以上。

预测下一步,ChatGPT等应用将继续提升内存需求,例如能够存储大量图片和音频信息的高容量、进一步提高数据传输速度的高带宽、更低功耗、更高安全性,都将是未来深度学习与大模型进化的根基。

以HBM为代表的超高带宽内存技术,有望成为加速芯片选择,同时大模型的发展也会推动HBM内存进一步增大容量、提升带宽。

一个隐忧

在笔者日前与千芯科技董事长陈巍的交流中,他对算力芯片有一个形象的比喻:芯片是高科技发展的算力树根,大模型技术是科技树发展的AI树干,每个枝干就是不同的高科技领域。树根越茁壮,树干越高,科技树就越繁盛。从这个角度看,芯片和大模型领域的水平都影响到最终的国力竞争。

尽管国内头部大厂已经开始如火如荼地复现ChatGPT效果,但一个隐忧是——如果高端算力芯片被“断供”,高端芯片制造受阻,对我们训练和应用AI大模型会不会带来“釜底抽薪”般的挑战?

如果高端芯片“断供”持续下去,对我国AI大模型的发展可能是非常不利的。一方面,ChatGPT训练需要大量的CPU和GPU。另一方面,由于芯片禁令,导致国内难以新获得A100或更新的GPU。这相当于直接锁住了大模型训练的速度。

现在看来,国内可能是半年训练出一代,以后可能就是2年甚至10年才能完成一代进步。由于AI计算还影响到AI制药、AI材料等领域的发展,如果高端大算力芯片的问题得不到解决,国内的科技树成长速度有可能被拖慢。

由此会不会加大我国与国际上AI技术的发展代差?如果国际上凭借突飞猛进的大模型技术继续反哺各行各业的创新应用?……这种发展差距细思极恐。

写在最后

当AI公司在ChatGPT时代跃跃欲试淘金之时,探讨一下作为根基的大算力芯片尤为必要。特别是当大模型有望成为各行各业重要的生产工具,其下一步的部署和实施,大算力支持也是必不可少的。只有系统性地规划,聚焦于关键问题,才能形成持续突破。

编辑:黄飞

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分