基于PyTorch AMD的解决方案

jf_pJlTbmA9 2023-09-04 2292

电子说

1.4w人已加入

描述

PyTorrch 2. 0 是PyTorrch机器学习框架向前迈出的重要一步。 PyTorrch 2. 0 的稳定释放带来了新的功能,这些功能可以释放出更高的性能,同时保持与先前的释放相容的后向,并保留了Pythonic 焦点,这帮助PyTorrch如此热情地被AI/ML社区采纳。 AMD长期以来一直是PyTorch的坚定支持者,我们感到高兴的是,PyTorrch 2.0 的稳定释放包括支持AMD InstinctTM和得到ROCTM软件平台支持的RadeonTM GPUs。

PyTorrch 2. 0 发布后, PyTorrch 2. 0 引入了火炬,作为火炬导管支持的一种贝塔特征,通过 OpenAI Triton 深层学习编译器支持AMD Instinct 和 Radeon GPUs 。通过火炬导导管,开发者现在可以生成低层内核,使用Triton的便携和性能,在本地硬件中心内核编程模型上生成手写内核。

OpenAI Triton是被屏蔽的算法的语言和编译者,旨在提供CUDA/HIP和火炬之间的抽象层,让开发者能够更有成效地写出高效的内核。我们已经写了一个新的后端,将特里顿自定义的 MLIR 方言与我们的 ROCm 编译器堆叠连接起来。

Triton 能够通过利用AMD CDNATM GPU 架构的硬件特性,自动优化诸如TirchIngentor等机器学习编译器生成的包括AMD Instinct GPU加速器在内的多种AI加速器的内核。这样,开发者和用户就很容易从任何 HW 向 AMD Intinct GPU 加速器无缝地转换, 并且从框的性能中获得巨大效果。

此外,像Triton这样的编译者还可以使开发者能够使用像Python这样的高级编程语言来编写机器学习代码,这些代码可以用专门硬件高效地编译和操作。这有助于大大提高机器学习开发者的生产力,因为他们可以专注于模型的算法方面,依靠编程者生成高效代码。

按设计,PyTorrch 2. 0 与早先的PyTorrch 释放量相容。 PyTorrch 2. 0 的 ROCm 建筑也是如此。使用 AMD GPUs 的 PyTorrch 开发商可以迁移到 PyTorrch 2. 0 , 因为他们确信他们现有的代码会继续工作而无需作任何修改, 因此获取释放量带来的改进不会受到任何处罚。另一方面, 使用 PyTorrch 2.0 和 TochInginor 能够大大改进默认的热量模式的性能, 如下所示。

使用AMD Instinct MI250 GPUs的初步结果表明,与默认热量模式相比,火炬导管的性能明显改善,优化程度极小,与默认热量模式相比。我们看到,在卡美贝特、提stillGPT2 和 T5SMall 的45个拖车脸基准套件45个模型中,44个模型的性能平均提高至1.54X。我们期待继续与梅塔的PyTorch小组成员接触,以便进一步优化ROCm软件堆,并为今后的PyTurch 发布工作做出进一步的性能改进。

PyTorch 2. 0 PyTorrch 2. 0 遵循与以前相同的安装选项,以建造和安装支持 AMD GPP 的 AMD GPU 。其中包括一个可安装的 Python 软件包。当然还有使用上游 PyTorch 仓库从源头建造的选项。与为其他平台建造 PyTorch 一样, PyTarch 配置器为Pip 安装提供具体命令线。

由ROCm软件平台支持的GPU 构成支持AMD GPU的PyTorch支持基础的ROCm软件平台记录在文件上。

PyTorrch 2. 0 代表着继续扩大对ML开发者支持的一个重大步骤, 通过提高性能, 维护一个简单、 Pythonic 的界面, 从而继续扩大对 ML 开发者的支持。这一提高性能在很大程度上是由新的TirchIngingor 基础设施所促成的, 后者又利用了 Tritton ML 编程语言和即时编程器。 AMD对这些技术的支持使用户能够实现新的PyToch 架构的全部承诺。我们在 PyTorch 2.0 中的 GPU 支持只是围绕AI 和机器学习的更大视野的体现之一。 AI/ ML 在多种AMD 产品行中扮演着重要角色, 包括 Instenct 和 Radeon GPUS 、 AlveoTM 数据中心加速器以及 RizenTM 和 EPYC 处理器。这些硬件和软件倡议都是AMD 渗透性AI 愿景的一部分, 我们期待应对这个动态空间的许多新挑战和机遇。

MI200-89 - PyTorch Ingentor Mod Hugging Face 变形器培训速度加快,运行标准的 PyTorch 2. 0 测试套,超过 PyTurch 热量模式比较,基于对截至2023年3月10日单一GCD的AMD内部测试,使用 2P AMD EPYCTM 7763 生产服务器,使用 4x AMD IntinctTM MI250 (128GB HBM2e) 560W GPUS, 具有无限性 FabricTM 技术; 主机 ROCmTM 5.3, 客人 ROCmTM 5.4.4, PyTorch 2.0.0, Triton 2.0。服务器制造商可能会改变配置,产生不同的结果。绩效可能因使用最新驱动器和优化等因素而不同。

2023年先进微量设备有限公司保留所有权利。AMD、AMD箭标、AMD CDNA、AMD Instinct、EPYC、Radeon、ROCm、Ryzen及其组合是先进微量设备公司的商标。本出版物使用的其他产品名称仅用于鉴定目的,可能也是其各自所有者的商标。
审核编辑：彭菁

打开APP阅读更多精彩内容