12月13日,GAIR 2025「AI 算力新十年」专场在深圳举行。作为国内前沿技术与产业变革的重要风向标,GAIR大会历经七届积淀,见证并推动了中国 AI 产业从算法突破、硬件迭代,到商业落地的完整过程。本届论坛直面智能体系的底层核心——算力,从架构、生态、工具链到产业化落地,探寻未来十年的关键变量。
云天励飞副总裁罗忆出席并发表主题演讲,围绕大模型从“训练竞赛”走向“推理规模化”的产业拐点,分享了面向推理时代的关键判断与实践思考。
罗忆指出,过去几年行业主要通过更大算力、更大数据、更大参数推动智能上限持续提升,但随着应用从简单问答走向长上下文、工具调用与更复杂的智能体形态,产业关注点正在发生迁移:不再止步于“把模型炼得更强”,而是更强调“把推理做得更便宜、更稳定、更可规模化交付”。
在这一背景下,大模型应用面临的核心挑战正逐步呈现为“经济学困境”——模型规模扩大带来的算力与带宽成本上升具有明显的放大效应,只有通过稀疏化、蒸馏、量化等技术与工程优化持续降低门槛,AI 才可能从“高成本探索”走向“规模化普惠”。
围绕推理时代的衡量标准,罗忆进一步强调,竞争指标不应仅停留在芯片的理论算力峰值,而应回到“单位投入能够产出多少有效 token”。
这意味着,系统瓶颈往往不在算力本身,而在内存与互连带宽,以及由此带来的算力等待与利用率下降;在相近硬件条件下,谁能提升 MFU(算力/模型利用率)、减少无效等待,谁就更有机会把单位 token 成本摊薄到更具商业可行性的区间,从而支撑推理应用的规模化落地。
在国产 AI 推理芯片的发展方向上,罗忆提出三点思路:一是加强软件生态兼容,在更好承接算法迭代的同时提升算力利用效率;二是突破存储与带宽相关瓶颈,积极支持 3D memory 等技术路线;三是面向异构计算持续优化整体性价比,以更可持续的成本结构推动应用渗透。
他同时表示,行业的共同目标应是让推理服务的成本持续下探,并在未来三到五年推动“百万 token 成本降至 1 元以内”成为可触达的目标区间,从而更好支撑“人工智能+”在千行百业的普及。
云天励飞自2014年成立以来,一直坚持算法与芯片的协同迭代,聚焦推理场景推动技术与产品的持续演进。目前,公司正探索面向云端推理的新型架构方向——GPNPU,力求在兼顾通用性与效率的同时,最大限度降低开发和迁移的门槛。
面向推理规模化的新阶段,云天励飞将继续以“更高效、更普惠的推理算力”为目标,推动从芯片到系统再到交付的工程能力建设,与产业伙伴共同完善生态与应用路径,让算力投入更高效地转化为可度量、可复制的业务价值,形成从“算力基建”到“价值闭环”的正向循环。
全部0条评论
快来发表一下你的评论吧 !