GPU会完全取代用于AI工作负载的计算基础架构中的CPU?

MEILIFENGQ 2020-10-09 1709

电子说

1.3w人已加入

描述

人工智能（AI）最初只是实验室研究，但如今机器学习和深度学习等人工智能技术正越来越多地应用到现实世界中，例如检测金融交易中的欺诈行为、分析零售数据以提供个性化的购物体验，或者找到运输工具的最佳路线。

这些趋势意味着人工智能正迅速成为许多企业工作流程中不可或缺的一部分，从电子邮件到CRM或ERP，尤其是数据分析，从组织自身的数据集中收集商业智能见解，以提高效率，甚至创造新的商业机会。

这并不奇怪，IDC最近的一项调查显示，85%的企业正在评估人工智能或已经在生产中使用人工智能。然而，IDC发现，大多数组织报告说，在他们的人工智能项目中，有四分之一的机构报告说，失败率高达50%。这些失败都归因于缺乏熟练员工或文化上的挑战，但另一个常见的失败原因是无法从概念验证项目扩展到能够服务于整个组织的生产能力。

退一步讲，重要的是要区分那些投资于人工智能以获得显著的战略优势或可能重塑其整个商业模式的组织，而不是那些仅仅寻求简化运营或使用人工智能来自动化某些任务的组织。对于后者，基于云的AI功能生态系统已经兴起，可以通过API进行访问并将其集成到业务工作流程中。

另一类公司则以电子商务巨头阿里巴巴（Alibaba）分拆出来的一家银行为例，该银行使用人工智能来管理其所有金融服务，在贷款审批等流程方面，它的速度比竞争对手快得多，而且员工人数只占其一小部分。正如《哈佛商业评论》（Harvard Business Review）所详述的，这家新银行的核心是一个基于人工智能的“决策工厂”，它将决策视为一门科学，利用数据来推动预测和洞察，从而指导和自动化公司的运营工作流程。

对于这类业务，实施你的人工智能战略首先要有正确的数据，并且要理解如何使用它。这意味着不仅要雇佣数据科学家，还要雇佣数据战略家，他们是能够将业务问题转化为分析解决方案和见解的专业人士。

人工智能是建立在数据基础上的

大量的数据是开发机器学习（ML）或深度学习（DL）算法的最终根本。您在模型上投入的样本数据越多，就可以将模型“训练”得越好，并且其输出越准确可靠。结果是，与传统的企业IT环境相比，为AI项目存储和处理数据通常需要与高性能计算（HPC）安装有更多共同点的硬件。

训练一个深度学习模型或分析大量数据需要大量的处理能力。这可以通过使用一堆服务器和高端处理器芯片并行处理问题来实现。但更有效的解决方案是求助于专门的加速器，如GPU，或图形处理单元。

GPU之所以得名，是因为它们最初是3D图形的加速器，需要数百万次重复计算才能渲染图像。因此，它们具有使用数百个简单处理核心的大规模并行体系结构，事实证明，它们也适用于AI模型所涉及的计算。

例如，谷歌发现一个仅用于48个Nvidia GPU即可处理用于在线图像识别的AI系统，该系统需要16，000个CPU。

这并不意味着GPU会完全取代用于AI工作负载的计算基础架构中的CPU。在许多情况下，仍然需要CPU来处理应用程序逻辑和其他数据科学计算，因此在大多数情况下，结合使用CPU和GPU的计算节点将被证明是最佳解决方案。

存储源计算

与传统的HPC体系结构一样，获得最佳性能的关键是保持计算节点及其gpu以足够高的速率接收数据，以使它们保持忙碌，这意味着存储基础结构在提供所需的性能级别方面起着至关重要的作用。正确的数据存储系统必须提供高吞吐量，以防止昂贵的gpu闲置，但它也必须具有灵活性和可扩展性。

更复杂的是，不同的AI工作负载将以读写数据的方式显示不同的访问模式，存储层需要能够处理所有这些模式。ML训练工作负载往往遵循一种不可预测的访问模式，例如，生成大量的读写操作，这些读写操作可能包括大小不等的随机访问和顺序访问，存储层必须能够吸收这些数据并提供高吞吐量。

当训练数据集足够小时，例如在试验性部署中，它可能被缓存在本地内存中，或者从小型计算节点群集中的本地闪存驱动器（SSD）中提供服务，这可以提供足够的性能级别，特别是当闪存SSD是NVMe驱动器时。

NVMe是一种存储标准，它使用高速PCIe总线将SSD直接链接到系统中的处理器，而不是传统接口（如SAS或SATA）。它还指定了一种新的高效协议，可以减少软件开销，从而最大限度地提高闪存提供的低延迟。NVMe的一个关键特性是支持多个I/O队列（最多65535个），从而使闪存能够并行处理多个请求。这利用了NAND存储设备的内部并行性，并允许比SAS或SATA高得多的原始吞吐量。

然而，扩展这样一个试验性部署来支持生产性人工智能用例所需的大量数据是困难的和/或昂贵的，这可能是一些人工智能项目无法超越概念验证阶段的原因。

成本也是一个因素。许多全闪存存储体系结构都依赖于单独的对象存储池或类似的存储池来保存访问频率较低的冷数据。相比之下，存储公司DDN有一个名为热池的功能，用户可以通过在用于热数据的闪存层和用于冷数据的更大的旋转磁盘层之间自动迁移数据，将所有内容保存在一个文件系统中。这降低了由于管理开销而导致的成本，同时使所有数据更接近你的手边。

加速任意规模的AI

这方面的一个很好的例子可以从DDN的加速、任意规模的AI（A³I）投资组合中看到，DDN是一家专门从事高性能存储的公司。A³I系列是一套基于DDN EXAScaler系统的预配置设备，可选择所有闪存NVMe SSD或闪存与硬盘驱动器存储的混合，以提高存储容量。

为了扩大规模，客户只需添加额外的设备，每个AI200X/AI400X设备的闪存NVMe容量高达256TB，或AI7990X型号的混合存储容量为4PB。每个文件系统都可以看作是一个构建块，可以聚合成一个可以在容量、性能和功能上进行扩展的文件系统。

根据DDN，A³I设备针对所有类型的访问模式和数据布局进行了优化，以确保GPU资源的充分利用。每个设备还具有多个高速主机接口，最多有8个HDR100 InfiniBand或100Gbit/s以太网端口。

AI基础设施认证

认识到这一点，领先的GPU供应商Nvidia在其参考架构中将DDNA³I存储与DGX A100系统结合在一起，DGX A100系统是一个专用的AI计算系统，其中包含八个最新的A100 Tensor Core GPU和一对AMD Epyc CPU。DGX A100系统的架构被设计为适用于所有AI工作负载的通用系统，可消耗高达192GB / s的大量数据。但是，四个并行工作的DDN AI400X存储设备能够使所有这些GPU完全存满数据。

虽然DGX A100是相当新的产品，但是客户已经在AI应用程序中将DDN存储与Nvidia的旧DGX-1平台一起使用。日本东北大学医学大银行组织（ToMMo）已实现DDN EXAScaler存储，该存储连接到运行Parabricks基因组分析软件的基于DGX-1 GPU的分析服务器，作为其医疗超级计算机系统的一部分。

据该大学称，这极大地提高了其分析能力和样品量。因为由于能够处理更大的数据集，所以以前只存在于理论上的方法现在变得可行，从而提高了数据分析的准确性。

不过教训是，要使用A来I转变业务运营，组织需要能够处理大量数据。这反过来又意味着要建立一个能够处理这些数据量的基础设施，以及在不破坏银行资金的情况下扩大对数据和计算资源的访问的方法，以支持未来的增长。

希望通过采用全面的数据战略来领先于竞争对手的公司需要确保自己不会在基础架构方面承担额外风险。选择一家在要求最苛刻的数据密集型的环境中提供一系列解决方案方面具有丰富经验的存储供应商是一个明智的起点。
责任编辑:tzh

打开APP阅读更多精彩内容