当前主流的大模型对于底层推理芯片提出了哪些挑战

描述

随着大模型时代的到来,AI算力逐渐变成重要的战略资源,对现有AI芯片也提出了前所未有的挑战:大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。

存算一体架构是可能有效解决当前芯片瓶颈的路径之一,通过将数据存储与处理单元集成,显著减少了数据在芯片内部的传输,降低延迟和能耗,提高计算速度。

此外,针对大模型的特定需求,芯片设计也在不断创新,以更好地支持并行处理和高效率的数据流动。这些技术发展不仅对推动人工智能领域的进步至关重要,也为芯片设计和制造业带来了新的机遇和挑战。

Q1► 当前主流的大模型对于底层推理芯片提出了哪些挑战?

1、算力需求:由于大模型计算量的提升,对算力的需求也飞速增长。考虑到芯片光罩面积的限制,一方面需要通过电路优化提升算力密度,另一方面需要通过先进集成等手段突破芯片面积的限制。

2、高吞吐量与低延时:大模型推理分为prefill和decoding两个阶段,两阶段的推理延迟分别影响用户得到首个token的延迟(time to first token,TTFT)和生成阶段逐token的输出延迟(time per output token,TPOT),优化两个阶段的延迟可以提升用户在使用推理服务时的体验。由于prefill阶段需要在单次推理处理完整的prompt输入,是计算密集的,所以prefill阶段需要通过提升芯片的算力来降低延迟。另一方面,decoding阶段中,每个请求只处理一个token,是访存密集的,因此需要提升芯片的访存带宽来降低延迟。

3、高效内存管理:在提供大模型推理服务时,不同用户的请求到达时间,prompt长度,以及生成长度均不相同,所以在动态batching时不同请求间的KV Cache长度往往不同,从而导致KV Cache的碎片化问题。因此,诸如vLLM等优化KV Cache的碎片化问题的内存管理方案被提出,从而显著提升GPU上的内存利用率。

4、能耗:对于每个sequence的生成,decoding阶段每次只处理单个token,从而导致在生成的过程中需要反复搬运权重到片上缓存,产生高访存能耗。

5、可编程性与灵活性:随着深度学习和人工智能领域快速发展,新的算法和模型不断涌现。芯片应具有一定的可编程性和灵活性,以适应这些变化,不仅仅针对当前的算法进行优化。

Q2► 大模型时代的需求,存算一体芯片会是更优解吗?

1、存算一体的优势与大模型需求的契合点:CIM(Computing in Memory)具备高计算密度、高计算能效的优势,适合大模型Prefill阶段的处理。在同样芯片面积限制下,有望提供超过当前GPU的算力。另外,对图片、视频等领域生成模型,算力的需求将进一步上升,CIM高算力密度的优势可以进一步发挥。

2、方向一:近存路线:基于DRAM的近存计算架构能够处理decoding阶段访存密集的矩阵向量乘法操作。通过在DRAM的bank附近放置处理单元,它们可以减少搬运权重的能耗,并且通过近bank处理单元的并行计算提升访存带宽,从而获得推理加速。但是由于DRAM的工艺限制,近存处理单元的算力较弱,无法高效处理prefill阶段的计算密集算子,因此往往需要与GPU配合工作,完成整个推理流程。

3、方向二:近存+存算路线:CIM+PIM的混合异构方案,可以同时满足Prefill高算力和Decode高存储带宽和容量的需求,实现优势互补,超过当前的同构方案。

未来,随着技术进步和创新设计的不断涌现,芯片技术将进一步突破现有极限,实现更低的能耗和更高的计算性能。存算一体技术也将为芯片行业提供更多创新发展路径。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分