3月31日,2026国际集成电路展览会暨研讨会(IIC2026)将在上海召开。 作为全球集成电路领域最具影响力的行业盛会之一,本届大会以“技术赋能产业,生态链接价值”为核心定位,聚焦AI芯片、汽车电子、工业控制、通信系统、绿色能源等关键应用场景,汇聚全球IC设计、EDA工具、IP授权、先进封装等领域的顶尖企业与专家,打造贯通芯片设计制造、能源技术革新、产品商业化落地的超级产业连接器。
届时,国科微AI算法部部长倪亚宇将在“边缘AI与算力芯片”垂直技术论坛上发表题为《Flash Attention-4:新一代大模型推理NPU流水线范式设计》的主题演讲。
Flash Attention系列由Tri Dao团队主导开发,其核心哲学是IO-Aware的算法-硬件协同优化:通过精细拆分计算任务以适配芯片的内存层次结构,将传统注意力机制中的高开销数据搬运,转化为片上高效计算。该系列自2022年首次发布以来,已迭代至第四版,但即便是V1版本,在NPU平台上的落地实践仍面临巨大挑战。
本次演讲将揭秘FlashAttention-V4如何让算法与NPU硬件实现“默契配合”,通过流水线式的协同设计,打通访存带宽、存储层级、同步机制等关键堵点,为国产算力平台上的大模型推理开辟一条高效新路径。更进一步,倪亚宇还将在演讲中披露国科微新一代NPU架构——该架构支持高性能FlashAttention推理,并配套新一代工具链,持续夯实国科微在打造“端边AI芯引擎”战略中的技术积累。
全部0条评论
快来发表一下你的评论吧 !