在 GTC 会场,观众座无虚席,两位计算领域最具影响力的领导人物,NVIDIA 首席科学家 Bill Dally,以及 Google DeepMind 与 Google Research 首席科学家 Jeff Dean 登台对话。他们的工作深刻塑造了大规模机器学习的发展轨迹。
这场对话与其说是传统座谈,不如说是一场深度学习的“即兴演奏会”,两位深入探讨了 AI 模型的演进方向,以及为何硬件架构如今已与 AI 的进步密不可分。
Dean 开场时回顾了模型能力的快速跃迁,尤其在如“数学和编程”等具备“可验证奖励”的领域。曾经令模型束手无策的任务,如今已能可靠地执行;基于智能体的工作流甚至能在数小时乃至数天内几乎无需人工干预的情况下自主运行。他强调,这一转变正在重塑 AI 系统的本质,使其从被动响应提示的工具,转变为“在后台持续运作的智能体”。
对此,Dally 表示,这种演进将延迟问题推至聚光灯下。推理速度成为智能体在大规模环境中推理、规划与迭代的首要设计约束。他解释道,当前大部分延迟并非来自计算本身,而是源于通信。每一层之间的数据传递、每一次片外访问、每比特在导线上的移动,都会带来时间与能耗成本。NVIDIA 的应对策略是推动架构向 Dally 所称的“光速”设计迈进:最大限度减少路由成本、消除排队等待,并缩短数据必须传输的物理距离。
在讨论能效时,这一“不要移动数据”的原则被反复提及。一次乘加运算可能仅耗几飞焦耳(极小的能量单位),但从外部存储器读取数据的能耗却可能高出数千倍。Dally 介绍了利用 SRAM 的局部性并探索堆叠式 DRAM 技术,通过将计算单元紧邻内存部署,从根本上改善这一能耗失衡。其目标不仅是降低能耗,更是在相同功耗下实现更高性能。
讨论还延伸到利用 AI 设计运行 AI 的芯片。Dally 举例说,如今强化学习系统能够在一夜之间生成标准单元库,即预设计、预验证且完整表征的基础逻辑模块集合;而基于 NVIDIA 设计历史训练的内部大语言模型,正帮助初级工程师掌握数十年的架构知识。这些系统并非取代人类设计师,而是增强他们的能力,压缩开发周期,并拓展值得探索的创新空间。
展望未来,两位演讲者不约而同地聚焦于同一个关键词:协同设计。突破性的进展将来自机器学习研究人员与系统架构师之间的紧密反馈循环。正如 Dean 所言,有时你在硅片上加入一个小型实验性功能,就可能带来巨大回报,硬件性能可因此实现“10 到 20 倍”的提升。
本场对话最终回归人本价值。教育、医疗与科学发现被一致视为 AI 能产生深远积极影响的领域,尤其是当系统变得个性化、具备上下文理解并持续学习的情况下。Dean 表示,“我认为 AI 在医疗领域的应用将极具变革性”。
如果台上这两位行业领导者所畅想的未来成真,那将不只是更快的模型运行在更好的硬件上,而将开启一个一个智能、能效与规模协同演进的全新计算时代。
全部0条评论
快来发表一下你的评论吧 !