GPU,供不应求!

描述

还记得吗,GPU 曾经只是一种小型无风扇显卡,其代表包括Voodoo、Matrox、Nvidia 或 ATI 吗?这个简单的添加为您的 PC 带来了响应式 2D 和 3D 图形的新世界。

如果当时有人告诉你,未来版本的 GPU 最终将被用作 HPC、加密货币和生成人工智能的高性能工具。我怀疑答案会是“什么是加密货币和生成人工智能?” 

对 GPU 硬件或更好的加速器的需求从未如此强烈,如果这种趋势持续下去,当前的高需求可能会延续到不久的将来。就 HPC 而言,这一趋势表明 GPU 未来将会变得昂贵且难以找到(除非您购买的数量足以直接向供应商购买)。 

GPU 非常适合加速矩阵运算,这通常是许多 HPC 应用程序的核心。它们提供 SIMD(单指令多数据)处理单元,可以加速复杂的并行数组操作。正如人们经常指出的那样,HPC GPU 市场在一定程度上要归功于规模大得多(约 7 倍)的游戏市场,它帮助支付了硬件成本,让游戏玩家能够飞越星系,同时允许科学家模拟星系。 

加密货币市场改变了这种低端动态。就加密货币而言,游戏 GPU 非常擅长快速查找唯一数字并产生热量。市场需求相当高,但由于加密市场的不断发展,需求似乎正在下降。

在高端,情况就完全不同了。根据雅虎财经的一篇文章,Reports Insights 的一份报告预测: 

“受图形处理器 (GPU) 科学模拟、数据分析和人工智能需求不断增长的推动,全球图形处理器 (GPU) 市场预计在 2022 年至 2030 年期间复合年增长率为 33.5%。“

数据显示,2022 年,GPU 市场估值为447 亿美元,预计到 2030 年将达到4509 亿美元。GPU 市场的增长可归因于游戏、娱乐和数据中心等各种最终用途行业对高级图形和高质量视觉体验的需求不断增长。虚拟和增强现实的日益普及以及人工智能和机器学习的进步也促进了 GPU 市场的增长。随着高性能 GPU 需求的增长,市场有望在未来几年大幅增长,为市场参与者带来大量机会。

然而,对于 GPU 市场供应商来说,这是个好消息,对于最终用户来说,LLM(大型语言模型,例如 ChatGPT)的增长创造了对严格意义上不属于传统 HPC 市场一部分的 GPU 的新需求。 

以 Inflection AI 为例,该公司正在开发一种名为“Pi”的“个人人工智能”聊天机器人。为了实现这一目标,该公司建造了一台配备 22,000 个 NVIDIA H100 GPU 的 超级计算机。为了提供一些背景信息,Frontier 是 6 月 23 日 TOP500 列表中排名第一的系统,拥有37,632 个 GPU。 

Inflection AI 的情况并非独一无二。SemiAnalysis报告的另外两个数据点也支持同样的趋势。

“即使 OpenAI 也无法获得足够的 GPU,这严重阻碍了其近期路线图。由于 GPU 短缺,OpenAI 无法部署其多模态模型。“ 

例如,Tik Tok 背后的中国公司字节跳动据称从 Nvidia 订购了价值超过 10 亿美元的 A800/H800。“

正在寻找 FLOPS? 

幸运的是,GPU 对于 HPC 来说并不是必需的;GPU 并不是 HPC 所必需的。它们对于许多应用都很有用;然而,最新的 TOP500 系统统计(6 月 23 日)表明,37% 的机器使用 GPU。这个数字正在增加,并且随着系统进入 exaFLOPS 领域,加速器的使用将继续。 

如前所述,GPU 不是必需的,但对于许多 HPC 应用程序来说通常是可取的。由于生成式 AI 行业爆炸式增长的巨大需求,许多 HPC 现场采购和/或云场景的担忧是 GPU 的全面可用性(短缺)。“任何 GPU”(Nvidia、AMD 或 Intel)的高市场需求可能会促使 HPC 从业者考虑仅使用 CPU 的解决方案来帮助加速其代码(例如,众核、AVX-512、HBM、3D V-Cache 等) 。 

对“GPU 周期”的搜索也可能会带来一些新颖的方法。回想一下,HPC 中的一些原始 GPU 应用程序始于标准 GPU 卡和一种名为“ Brook ”的新语言,该语言是 CUDA 的前身,并在第一段中提到的一些早期 GPU 卡上运行。一开始,这种方法似乎有点尴尬,但速度的提高是不容忽视的。结果重塑了 HPC 领域。 

最近,一个有趣的举动是,最新版本的 AMD ROCm GPU 库(V5.6) 提供了对移动和桌面级 iGPU(集成 GPU)的支持。在 LinkedIn 上的一篇简短帖子中,HPC 专家 James Cuff 能够使用 Ryzen 9 6900HX 桌面处理器在 CPU 和 CPU/iGPU 上运行 TensorFlow 基准测试。同样的基准测试在 CPU 上运行需要 13 秒,在 CPU/iGPU 组合上运行需要 3 秒。当然,还需要更多的测试,但正如对 FLOPS 的搜索将目光转向了早期基于 GPU 的显卡一样,寻找内部 GPU 可能会为 HPC 组合添加一些未使用和可用的 FLOPS。

GPU 的巨大压力已经到来。

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分