制造/封装
GPU短缺实际上是说主板上某些组件的短缺,而不是 GPU 本身。
Nvidia副总裁兼 HPC 驱动 DGX 系统总经理出面澄清了该公司 GPU 容量问题的具体所在。博伊尔表示,问题并非来自英伟达错误计算需求或其制造合作伙伴台积电的晶圆产量问题。
相反,制造足够的 GPU 来满足消费者和专业工作负载(由于人工智能的蓬勃发展)需求的瓶颈在于随后的芯片封装步骤。英伟达的 H 级 GPU 采用台积电的 2.5D晶圆基片芯片 (CoWoS) 封装技术,这是一种多步骤、高精度的工程步骤,其复杂性降低了可在一个芯片中组装的 GPU 数量。给定的时间范围。这可能会对供应产生不成比例的影响;所需 GPU 数量与可用 GPU 数量之间的差异甚至导致埃隆·马斯克 (Elon Musk) 表示,事实证明,它们“比药品更难获得”。
Charlie Boyle,英伟达DGX 副总裁兼总经理说道:因此,当人们使用 GPU 短缺这个词时,他们实际上是在谈论主板上某些组件的短缺或积压,而不是 GPU 本身。这些东西的全球制造有限……但我们预测了人们想要什么,以及世界可以建造什么。
在芯片成为可用的 GPU 之前,需要经过从芯片设计到制造的多个步骤。其一,芯片设计阶段的问题可能会因设计疏忽而造成制造瓶颈,从而降低设计的良率(良率是指完全蚀刻的晶圆中可用芯片的百分比)。稀土金属或其他材料(例如最近受到限制的镓)的缺乏将影响长物流链中的其他步骤;材料污染、能源中断和许多其他因素也会如此,正如我们多年来已经看到的那样。
但CoWoS的瓶颈问题可能比预想的更严重。台积电本身也表示,预计需要 1.5 年(以及完成额外晶圆厂和扩建现有设施)才能使封装工艺积压恢复正常。这可能意味着英伟达将不得不决定什么产品用什么样的封装技术——因为没有足够的时间和能力来封装所有产品。
供应问题可能来自台积电的封装,但最终,英伟达通过其(根据帕特·基辛格的说法)“令人难以置信的执行力”在人工智能领域占据主导地位。就台积电而言,它是少数拥有功能性高性能封装技术的厂商之一,而这种技术是性能扩展的绝对要求。AI 领域肯定需要更多的竞争,比如RX 7900 XTX 等 AMD 游戏 GPU 也被认为正走向AI 数据中心。
AMD于6月13日发布可用于ChatGPT等AI模型的MI300x芯片,挑战目前占有AI芯片市场超八成份额的英伟达。
用于生成式AI的大型语言模型需要大量的运算,因此需要很大的内存支持。AMD于6月曾演示了MI300x运行400亿参数的Falcon模型,而OpenAI的GPT-3模型有1750亿个参数。
AMD公司的这款MI300x芯片及其CDNA架构专为大型语言模型和其他先进的AI模型而设,可用于192GB内存,也就是说能用于更大规模的人工智能模型,相比之下,英伟达的H100芯片只能支持120GB内存。
除此以外,苏姿丰还介绍了使用配置MI300x芯片的AMD Infinity架构平台,用于生成式AI的推理和训练,可在一个系统中集合八个MI300x加速器。而英伟达和谷歌(GOOG.US)也开发出类似的系统,可在一个盒中集合八个或以上的GPU用于AI应用。
目前众多大型科技公司都在布局AI和大模型,对这类芯片的需求殷切,AMD积极加入这个市场显然并非仅仅为了一两个季度业绩好看,而是为了更长远的发展。
需要注意的是,对比于其较为成熟的产品,当前AI应用产品的贡献虽增长强劲,却占比较小,尚不足以带来压倒性的推动,在可预见的将来难以带来肉眼可见的提升作用,可能要到明年或以后。
而且制造方面也需要竞争。英特尔的代工服务(IFS) 有望为高性能 GPU 游戏带来另一位玩家;与此同时,人们还希望三星至少能够缩小其相对于台积电的制造技术差距,从而使其芯片具有足够的吸引力,吸引另一家制造商参与竞争。三星在封装方面的投资数额巨大,但业界一致认为三星在封装技术方面落后于台积电。三星电子需要一记 "重拳",才能在封装领域赶超台积电。
台积电于 2012 年首次引入 CoWoS 技术,此后不断升级其封装能力。如今,英伟达、苹果和 AMD 的旗舰产品都离不开台积电及其先进封装技术的支持。这也解释了为什么三星电子在 2022 年领先台积电一步完成了 3nm 量产,但英伟达和苹果等巨头仍然希望使用台积电的生产线。
为了超越台积电的 CoWoS,三星正在开发更先进的 I-cube 和 X-cube 封装技术。此外有消息称,三星将研究重点放在了 3D 封装上,将多个芯片垂直堆叠以提高性能。一位半导体业内人士表示:“很快三星和台积电在封装上就会发生正面冲突。”
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !