近日,2025 CCF SYS 知存科技专场论坛《多模态大模型的存算一体加速》以超预期的火爆人气与丰硕交流成果,在北京圆满收官。由清华大学刘勇攀、清华大学胡杨、北京大学李萌、复旦大学陈迟晓四位讲者带来的精彩报告吸引了现场百余位观众学习交流。从“晶圆级芯片计算架构与集成架构探究”、到“突破内存瓶颈的大模型推理软硬件优化”、再到“2.5D/3D/3.5D存算一体集成芯片”,以及“多模态智能生成式感知芯片”,讲者们带来的不仅是干货拉满的研究成果,也启发了行业技术升级的新视角。我们摘选了每位讲者的部分精彩内容制作成海报,希望让更多人听见这场学术交流盛宴的回响。
01|晶圆级芯片计算架构与集成架构探究
报告摘要:随着大模型任务部署的普及,对算力的需求日益增长。在当前摩尔定律放缓以及严峻的工艺封锁下,需要探究新的计算节点算力提升路径。晶圆级芯片以超大规模的单片集成方式,成为支撑下一代人工智能算力的新型芯片架构。然而,晶圆级芯片虽然带来了高密度片上互连及海量的计算与存储资源,但也具有独特的设计约束。因此,协调片上互连架构设计、计算资源高密度集成与前沿大模型任务的高效执行,仍是亟待突破的关键问题。本报告从晶圆级芯片计算架构与集成架构两个角度切入,尝试提供参考性的解决方案。
02|突破内存瓶颈的大模型推理软硬件优化
报告摘要:以ChatGPT为代表的大模型快速发展,为自然语言处理、计算机视觉等领域带来了重要的技术革新。然而,依据scaling law,大模型的参数量呈现指数级增长的趋势,造成了严峻的存储和带宽瓶颈。而大模型的自回归解码特性与长文本处理需求则进一步增加了访存带宽需求。在本次报告中,我将介绍课题组在大模型并行解码、自适应调度、长文本压缩等方面的一系列研究,通过模型/加速器协同设计和优化,降低大模型推理的计算和访存开销,提升大模型推理效率。
03| 2.5D/3D/3.5D存算一体集成芯片
报告摘要:随着像AI 大模型的快速扩展,传统计算架构面临了巨大的挑战。为了克服“内存墙”问题,内存驱动的架构,如计算内存(CIM)/近内存计算(PNM)架构应运而生,它们通过将计算与内存集成,减少了延迟和能耗。本报告将探讨通过先进集成技术实现的2.5D/3D/3.5D异构集成在CIM/PNM系统中的可扩展性。在2.5D集成中,我们讨论了一种层级流水并行映射方法,通过最小化芯片间通信来提高效率。在3D集成中,堆叠接口可提供更高的带宽、减少互连延迟,并为AI工作负载提供可扩展的性能。我们开发了一种基于有源硅中介层的3D存算集成芯片,以实现灵活的3D通信。本报告还将讨论存算芯片向3.5D拓展的优势。这些2.5D/3D/3.5D方案为在后摩尔时代智能芯片持续推进规模化法则提供了可行的路径,并对AI基础设施、边缘计算和高性能系统具有重要的意义。
04|多模态智能生成式感知芯片
报告摘要:具身智能、自动驾驶等新兴应用推动了对边缘端高效多模态处理的需求。然而,现有边缘端多模态处理面临两个关键挑战。一方面,多模态处理相比单模态处理带来了更加显著的数据搬运开销。传统存算分离的冯·诺伊曼架构在这种情况下会面临显著的计算延时和功耗开销。为此,本团队提出了基于存算一体的多模态智能处理架构。通过存内计算设计有效提高了边缘端多模态处理的能效和计算速度。另一方面,我们观察到现有工作逐渐从数据处理转向数据生成。传统多模态处理受限于传感器的物理局限,常常面临感知维度不足或物体遮挡带来的细节缺失等挑战。为此,本团队提出可以将智能生成与多模态数据处理相结合,形成“虚实结合”的多模态智能处理,从而实现对传统多模态处理的增强和突破。本报告将回顾本团队在存内计算和多模态融合处理方面所作的加速芯片工作,进而介绍本团队最新的生成式感知工作。最后,本报告会对多模态智能处理的未来发展趋势做出展望。
再次感谢四位学者为参会同学们带来的多维度的思考与启发!知存科技期待能够组织更多交流活动,续写更多精彩对话。
全部0条评论
快来发表一下你的评论吧 !