1月22日,第31届亚洲及南太平洋设计自动化会议(ASP-DAC 2026)在香港成功举办。后摩智能先进存算技术研发部负责人陈刚受邀出席,并在专题讨论会"超越GPU:AI计算架构与设计方法论之争"中发表报告。
ASP-DAC始于1995年,由IEEE和ACM联合主办,是亚洲及南太平洋地区规模最大的VLSI和系统电子设计自动化 (EDA) 会议,也是集成电路设计自动化领域的国际顶级会议之一。本次会议中,ASP-DAC面向亚洲与南太平洋地区的设计人员,致力于展示LSI设计和设计自动化领域的最新技术和未来方向。
存算一体正重塑AI技术架构,推动AI从云端走向端边。后摩智能作为存算一体领域的企业代表之一,与包括清华大学、北京大学、香港科技大学、上海交通大学等高校共同参与技术交流,并围绕AI计算架构与设计中的“硬件架构”、“存内计算”、“评估范式”和“产学研协作”四大维度,分享对于技术趋势与产业挑战的见解。
以下摘取部分精彩观点:
硬件架构:通用化与专用化的终极路径
Q:展望2030年,你认为主导AI计算的架构将延续GPU的演进路线,还是会被ASIC或神经形态计算、存内计算等新兴技术取代?
陈刚:在我看来,未来三到五年,GPU的地位会有所松动。因为AI需求过于多元化,且不同场景的需求差异巨大——有些应用追求极致性能,有些需要超低功耗,还有些对成本极其敏感。面对如此多元的需求,很难设计出一种“一刀切”的架构来满足所有人。
Q:英伟达的黄仁勋与AMD的苏姿丰都曾公开力推ASIC,目前也有从GPGPU向场景专用硬件演进的趋势,这种“专用化”趋势会成为未来主流吗?
陈刚:我不这么认为。通用化代表灵活性,专用化则意味着更优的PPA(性能、功耗、面积)。从我们实操来看,二者始终需要权衡取舍。它们应当根据不同的产品定位协同满足市场需求,而不是相互竞争。
同时,在硬件设计里,灵活性和PPA哪个更重要,得看产品的定位和市场需求。这本质上是基于市场洞察的商业决策。决策前,我们需要问自己:是否需要增加冗余硬件资源、牺牲当前PPA,以换取对未来潜在市场机会的快速响应?如果是,设计就应更偏向通用化;否则,专用化才是优先方向。
Q:Agentic AI要求硬件支持大规模持续上下文(KV-Cache)与低延迟决策,而非传统的高吞吐计算。这一转变会打破GPU的垄断吗?
陈刚:我认为GPU的主导地位会被打破。因为它过于通用,就必然会造成PPA损失。而对于那些对PPA极度敏感的场景,就需要专用的AI芯片——比如云端垂直整合或边缘侧专用NPU(dNPU)。
存内计算:从概念到主流应用的挑战
Q:JEDEC正在推动LPDDR6-PIM标准。这是否意味着PIM即将被主流产业接纳?还是算法的持续演进(如MHA→GQA→MLA)与GPU架构的迭代将再次让PIM错失机会?
陈刚:这里讨论的PIM实际上是2D PIM。如果能纳入JEDEC标准,我认为它将获得更大的市场机会。本质上,2D PIM只是DDR的扩展——它还是标准产品,只是针对AI需求做了少量调整。由于其依赖专用产线,现在主导权仍掌握在传统DRAM厂商手中。正如GDDR定义了图形时代、LPDDR推动了智能手机爆发,AI时代也必将诞生专属的DDR。未来,可能我们可以称之为ADDR或AIDDR。
Q:2D PIM受限于DRAM工艺能效与互连瓶颈,而3D堆叠性能更优但成本高昂。在性能与成本之间,PIM应选择怎样的技术演进路径?
陈刚:在我看来,技术应为产品目标服务。因此技术路径的选择必须与产品定位匹配。2D与3D PIM各有优势——2D PIM更适合成本敏感场景,3D PIM适用于高性能需求,但相应成本也更高。它们将共存而非相互替代。
Q:为何主流CPU/GPU厂商除高通收购UPMEM外,少有收购PIM公司?
陈刚:对于2D PIM,由于其依赖专用产线,主导权必然属于传统DRAM厂商——这些产线投资巨大,难以被轻易收购。至于3D PIM,我认为技术目前尚不成熟,因此行业巨头仍在观望。一旦技术成熟,他们会迅速入场。
评估范式:从理论指标到实际效率
Q:TOPS等传统指标已无法有效反映生成式AI的实际性能。对于LLM推理,TOPS仅是理论峰值且已过时。真正的瓶颈在于TTFT、TPOT、TPS与MBU,为何行业仍基于TOPS宣传芯片?
陈刚:我认为这可能源于CNN时代。如今进入LLM时代,它实际上已经过时了。
Q:是否需要建立新的“生成式基准测试”以揭示架构的实际可用性?应采用哪些指标?
陈刚:我认为需要。也许在Prefill与Decode场景中,每秒生成token数、每美元token数、每瓦特token数等指标都比当前的TOPS基准更具参考价值。
产学研协作:从研发生态到创新循环
Q:学术界专注前沿探索与基础创新,工业界致力于产品化与规模化应用。许多学术论文提出新颖的AI加速器架构,但工业界往往不予采纳。你认为最大的脱节点在哪里?
陈刚:我认为关键在于学术界与工业界需要更紧密地系统性协作。以CIM IP设计为例,模拟与数字CIM都适合矩阵加速与降功耗,各有优势。在同一工艺节点下,模拟CIM能效更高,而数字CIM更能受益于工艺缩放。因此,两者均能胜任矩阵处理。但这只是开始,如果想将技术推向大规模量产必须考虑后续问题。
比如,至少需要解决如何让CIM设计与现有的DFT工具兼容,以实现更高的测试覆盖率、更低的测试成本,并降低客户的DPPM。因此,从量产角度看,为CIM设计开发专用DFT算法同样关键,而不仅仅是提出一套电路设计方案。
全部0条评论
快来发表一下你的评论吧 !