人工智能中的处理器如何选择

描述

Q 应对 AI 发展带来的计算挑战,什么样的处理器才是最佳选择?

为长期运行的计算密集型 AI 训练和大规模 AI 推理选择合适的 CPU 或 GPU,本质上是要为您的应用选择适宜的计算解决方案。相比传统 x86 处理器成本高、能耗大,最新的 Ampere 云原生处理器助力打造高能效、高性能的 AI 推理应用,是其理想的替代方案,同时也是用于 AI 训练和大语言模型(LLM)推理 GPU 的高性价比之选。

从 20 世纪 50 年代的首个实例,到如今更为复杂的机器学习、深度学习,甚至是生成式 AI 技术,高性能计算的需求始终是驱动 AI 计算发展的引擎,但模型的研究和训练往往需要投入高昂的成本。

目前,AI 技术已进入广泛应用的阶段,也出现了为 AI 推理超额配置计算的情况,这导致了高昂的成本支出(无论是硬件的单位成本,还是硬件运行的电力成本)。因此,为不同类型的 AI 工作负载采用 GPU-Only 虚拟机的做法,正在被能够大幅降低 AI 计算能耗的其他方案所替代。

与传统计算相比,运行 AI 需要更高的能耗。Bloomberg 对此进行了详细介绍:ChatGPT3 的参数量达到 1,750 亿,消耗了高达 1.287 千兆瓦时电量,相当于120 户美国家庭一年的耗电量。而类似 ChatGPT4 这样的新模型(预计参数量达到 1.7 万亿),将比 ChatGPT3 消耗更高的电量。

由于 AI 带来的能耗需求飙升,配置适度算力并减少所需的计算量是行业迫在眉睫的需求。云原生计算可助力降低运行成本,为配置硬件层面的适度算力奠定基础,满足当前和未来的计算需求,并降低能耗。  

配置适度算力,满足计算和效率需求

云原生处理器是 CPU 架构的一项创新,是 AI 推理切实可靠的新选择,可替代高成本、高能耗的传统 x86 处理器。为 AI 应用程序配置适度算力,意味着您可以决定使用 CPU-Only,或是将云原生处理器的能效、可扩展性和计算性能与 GPU 的并行计算能力相结合。  

如您希望拥有价值及能效更高的 AI 解决方案,告别传统方案导致的高成本和高能耗,可遵循以下 3 项简单准则:

保持灵活性,满足未来的计算需求

仅部署可满足应用程序性能需求的计算量,并尽可能多地使用通用处理器,而非专用处理器。此举有助于保持灵活性,以便满足未来的计算需求。

将 CPU-Only 的 AI 推理

从传统 x86 处理器转移至云原生处理器

相比传统的 x86 处理器,您可以借助 Ampere 云原生处理器带来的性能增益,在 CPU-Only 的情况下部署更广泛的 AI 工作负载。

GPU 与高能效的云原生处理器相结合

将 GPU 与高能效的云原生处理器相结合,以处理任务更繁重的 AI 训练或 LLM 推理工作负载。

若您想了解关于 Ampere 云原生处理器能效的更多精彩内容,请参阅指南:《云原生处理器助力数据中心效率劲升三倍》

仅部署您所需的计算量

在 AI 技术发展的研究和训练阶段,GPU 是所有 AI 应用(包括建模和推理)的首选处理器。虽然 GPU 推动了 AI 的发展,但对于许多 AI 应用而言,GPU 提供的算力已经过剩,尤其是针对离线(batch)推理或批量推理而言。

离线推理(Batch Inference)应用是算力要求较低的工作负载,不需要 GPU 的处理能力:为此而购买 GPU,犹如为了 5 公里的上班路程购置豪华跑车——这显然是大材小用。当把同样昂贵的 GPU 硬件分别用于运行大型和小型模型时,小模型可能仅用了 GPU 能力的一小部分。在这些情况下,CPU 可以代替 GPU,帮助您节省能耗、空间和成本。

在处理离线推理时,那些遵循默认做法而采用 GPU 方案的客户,至少错过了两种更合适的优化方案。

方案一

将 GPU 替换成适用于 AI 推理的高性能云原生处理器。

适用于 AI 推理的高性能云原生处理器。

方案二

将 GPU 与云原生处理器进行结合,以实现更高效的 LLM 推理和训练工作。

这正是我们所定义的"适度算力"。

以下模型呈现了如何为 AI 应用程序配置适度算力,同时也对比了性能、计算需求与所需功耗。根据模型,CPU-Only 解决方案是纯 AI 推理计算的优选项,而需要更高性能的应用程序,可以在 CPU 和 GPU 的组合上运行。

cpu

当然,CPU 的选择也决定着您将付出的能耗以及获得的每瓦性能。而云原生处理器的性能优势和 Ampere 优化的 AI 软件,让 CPU 成为运行 AI 推理工作负载的理想之选。

将 AI 推理全部迁移至云原生处理器

欢迎加入云原生社区,这里汇聚了众多开发和设计人员。他们发现仅使用 Ampere 云原生处理器,也能够实现高效的 AI 推理。Ampere 优化的 AI 框架支持所有在最流行 AI 框架中开发的模型,包括 PyTorch、TensorFlow 和 ONNX Runtime,这种丰富的集成提供了无缝的体验,且无需修改 API 或进行额外的模型编码。

Ampere 优化的 AI 框架

相比传统的 x86 处理器,Ampere Altra 系列云原生处理器在 AI 推理方面拥有显著的性能优势,包括:

针对计算机视觉工作负载,性能最高可提升 4 倍*。

针对常见的NLP 工作负载,每瓦性能最高可提升 3 倍*。

Ampere AI 优化软件可提供更高效的 AI 推理。基于 Ampere 处理器的 AI 和 ML 推理工作负载,可通过 Ampere AI 解决方案的软件框架进行优化。通过使用 Ampere AI 解决方案,基于 CPU 的推理工作负载能够获得在成本、性能、可扩展性和能效等方面的优势,同时用户能够使用常见的标准 AI 框架进行编程。这套框架易于使用,无需转换代码,并且免费。

cpu

借助 fp16 数据格式的独特支持,Ampere Altra 系列处理器可实现最佳的推理性能——与 fp32 数据格式相比,fp16 数据格式可提供高达 2 倍的额外*加速,并且精度损失微乎其微。

将 GPU 与高能效 CPU 结合,

开展 AI 训练和推理

在需要使用 GPU 的 AI 应用中,繁重的 AI 工作负载由 GPU 处理,而 CPU 则需要充当系统主机。在这样的应用中,因为 GPU 决定了系统性能,所以无论使用哪种 CPU,它们的性能始终相同。

CPU 之间的区别在于其整体效率。与传统 x86 CPU 相比,云原生处理器将为您带来高能效,帮助显著降低系统的总体能耗*,并提供同等的性能。

采用云原生处理器,每台服务器可以节省数百瓦电力,这足以让您在每个机架上再增加一台服务器。虽然看似收益颇微,但实际上通过每机架增加一台服务器,整个数据中心的计算密度将大幅提升。此外,在服务器层面节省能耗还可以减少对冷却系统的依赖,从而节省更多成本,并进一步降低能耗。

云原生处理器与 GPU 相结合,有助于实现目标性能,并降低能耗和总体成本。

未来的 AI:强大、高效、开放

随着 AI 加速涌入我们的生活和工作,我们需要克服的最关键障碍,是如何降低 AI 大规模应用的成本,而适度算力以及模型优化能够带来规模效率。

为计算配置适度算力,不仅需要确保硬件解决方案能满足当前的计算需求,还需要能够支持应用程序扩展,并经得起未来的算力需求考验。Ampere 云原生处理器为您提供广泛的选择,既能满足您当前的需求,同时具备灵活性,可轻松满足您未来的需求。无论您是选择 CPU-Only 的方案,还是 GPU 与 CPU 相结合的解决方案,云原生架构都拥有性能和效率优势,契合您当前和未来的计算需求。

为云计算而生,Ampere 云原生处理器为行业提供可预测的卓越性能、平台可扩展性和空前的能效。

欢迎您与我们的专业销售团队洽谈合作,获取更多信息,或通过我们的开发者体验计划试用 Ampere System。

  审核编辑:汤梓红

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分