后摩智能亮相ASP-DAC 2026亚洲及南太平洋设计自动化会议

后摩智能 2026-01-29 662

描述

1月22日，第31届亚洲及南太平洋设计自动化会议（ASP-DAC 2026）在香港成功举办。后摩智能先进存算技术研发部负责人陈刚受邀出席，并在专题讨论会"超越GPU：AI计算架构与设计方法论之争"中发表报告。

ASP-DAC始于1995年，由IEEE和ACM联合主办，是亚洲及南太平洋地区规模最大的VLSI和系统电子设计自动化 (EDA) 会议，也是集成电路设计自动化领域的国际顶级会议之一。本次会议中，ASP-DAC面向亚洲与南太平洋地区的设计人员，致力于展示LSI设计和设计自动化领域的最新技术和未来方向。

存算一体正重塑AI技术架构，推动AI从云端走向端边。后摩智能作为存算一体领域的企业代表之一，与包括清华大学、北京大学、香港科技大学、上海交通大学等高校共同参与技术交流，并围绕AI计算架构与设计中的“硬件架构”、“存内计算”、“评估范式”和“产学研协作”四大维度，分享对于技术趋势与产业挑战的见解。

以下摘取部分精彩观点：

硬件架构：通用化与专用化的终极路径

Q：展望2030年，你认为主导AI计算的架构将延续GPU的演进路线，还是会被ASIC或神经形态计算、存内计算等新兴技术取代？

陈刚：在我看来，未来三到五年，GPU的地位会有所松动。因为AI需求过于多元化，且不同场景的需求差异巨大——有些应用追求极致性能，有些需要超低功耗，还有些对成本极其敏感。面对如此多元的需求，很难设计出一种“一刀切”的架构来满足所有人。

Q：英伟达的黄仁勋与AMD的苏姿丰都曾公开力推ASIC，目前也有从GPGPU向场景专用硬件演进的趋势，这种“专用化”趋势会成为未来主流吗？

陈刚：我不这么认为。通用化代表灵活性，专用化则意味着更优的PPA（性能、功耗、面积）。从我们实操来看，二者始终需要权衡取舍。它们应当根据不同的产品定位协同满足市场需求，而不是相互竞争。

同时，在硬件设计里，灵活性和PPA哪个更重要，得看产品的定位和市场需求。这本质上是基于市场洞察的商业决策。决策前，我们需要问自己：是否需要增加冗余硬件资源、牺牲当前PPA，以换取对未来潜在市场机会的快速响应？如果是，设计就应更偏向通用化；否则，专用化才是优先方向。

Q：Agentic AI要求硬件支持大规模持续上下文（KV-Cache）与低延迟决策，而非传统的高吞吐计算。这一转变会打破GPU的垄断吗？

陈刚：我认为GPU的主导地位会被打破。因为它过于通用，就必然会造成PPA损失。而对于那些对PPA极度敏感的场景，就需要专用的AI芯片——比如云端垂直整合或边缘侧专用NPU（dNPU）。

存内计算：从概念到主流应用的挑战

Q：JEDEC正在推动LPDDR6-PIM标准。这是否意味着PIM即将被主流产业接纳？还是算法的持续演进（如MHA→GQA→MLA）与GPU架构的迭代将再次让PIM错失机会？

陈刚：这里讨论的PIM实际上是2D PIM。如果能纳入JEDEC标准，我认为它将获得更大的市场机会。本质上，2D PIM只是DDR的扩展——它还是标准产品，只是针对AI需求做了少量调整。由于其依赖专用产线，现在主导权仍掌握在传统DRAM厂商手中。正如GDDR定义了图形时代、LPDDR推动了智能手机爆发，AI时代也必将诞生专属的DDR。未来，可能我们可以称之为ADDR或AIDDR。

Q：2D PIM受限于DRAM工艺能效与互连瓶颈，而3D堆叠性能更优但成本高昂。在性能与成本之间，PIM应选择怎样的技术演进路径？

陈刚：在我看来，技术应为产品目标服务。因此技术路径的选择必须与产品定位匹配。2D与3D PIM各有优势——2D PIM更适合成本敏感场景，3D PIM适用于高性能需求，但相应成本也更高。它们将共存而非相互替代。

Q：为何主流CPU/GPU厂商除高通收购UPMEM外，少有收购PIM公司？

陈刚：对于2D PIM，由于其依赖专用产线，主导权必然属于传统DRAM厂商——这些产线投资巨大，难以被轻易收购。至于3D PIM，我认为技术目前尚不成熟，因此行业巨头仍在观望。一旦技术成熟，他们会迅速入场。

评估范式：从理论指标到实际效率

Q：TOPS等传统指标已无法有效反映生成式AI的实际性能。对于LLM推理，TOPS仅是理论峰值且已过时。真正的瓶颈在于TTFT、TPOT、TPS与MBU，为何行业仍基于TOPS宣传芯片？

陈刚：我认为这可能源于CNN时代。如今进入LLM时代，它实际上已经过时了。

Q：是否需要建立新的“生成式基准测试”以揭示架构的实际可用性？应采用哪些指标？

陈刚：我认为需要。也许在Prefill与Decode场景中，每秒生成token数、每美元token数、每瓦特token数等指标都比当前的TOPS基准更具参考价值。

产学研协作：从研发生态到创新循环

Q：学术界专注前沿探索与基础创新，工业界致力于产品化与规模化应用。许多学术论文提出新颖的AI加速器架构，但工业界往往不予采纳。你认为最大的脱节点在哪里？

陈刚：我认为关键在于学术界与工业界需要更紧密地系统性协作。以CIM IP设计为例，模拟与数字CIM都适合矩阵加速与降功耗，各有优势。在同一工艺节点下，模拟CIM能效更高，而数字CIM更能受益于工艺缩放。因此，两者均能胜任矩阵处理。但这只是开始，如果想将技术推向大规模量产必须考虑后续问题。

比如，至少需要解决如何让CIM设计与现有的DFT工具兼容，以实现更高的测试覆盖率、更低的测试成本，并降低客户的DPPM。因此，从量产角度看，为CIM设计开发专用DFT算法同样关键，而不仅仅是提出一套电路设计方案。

打开APP阅读更多精彩内容