数据中心依靠服务器为其计算密集型架构提供支持

独爱72H 2020-04-28 3404

电子说

1.4w人已加入

描述

（文章来源：教育新闻网）

支持AI和ML部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。在多个行业中，到2024年，GPU使用量的增长将落后于GPU服务器预计超过31%的复合年增长率。这意味着将承担更多的系统架构师的职责，以确保GPU系统具有最高的性能和成本效益。

然而，为这些基于GPU的AI / ML工作负载优化存储并非易事。存储系统必须高速处理海量数据，同时应对两个挑战：

服务器利用率1)。GPU服务器对于训练大型AI / ML数据集所需的矩阵乘法和卷积非常高效。但是，GPU服务器的成本是典型CPU服务器的3倍。为了保持ROI，IT员工需要保持GPU繁忙。不幸的是，丰富的部署经验表明GPU仅以30%的容量使用。

该2)。ML训练数据集通常远远超过GPU的本地RAM容量，从而创建了一个I / O瓶颈，分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源，这是因为它们的庞大规模阻碍了及时访问，从而影响了性能。为了解决这个问题，NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘，成为Al / ML存储的首选。

NVMe支持大规模的IO并行性，性能约为同类SATA SSD的6倍，并且延迟降低了10倍，并且具有更高的电源效率。正如GPU推动了高性能计算的发展一样，NVMe闪存在降低延迟的同时，实现了更高的存储性能，带宽和IO / s。NVMe闪存解决方案可以将AI和ML数据集加载到应用程序的速度更快，并且可以避免GPU匮乏。

此外，可通过高速网络虚拟化NVMe资源的基于光纤的NVMe(NVMeoF)启用了特别适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池，因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据，以便他们更快地获得更好的结果。

要获得最佳的GPU存储性能，就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑：

有效扩展GPU存储容量1)例如，InstaDeep为可能不需要或不需要运行自己的AI堆栈的组织提供了AI即服务解决方案。因此，InstaDeep需要最大的ROI和可扩展性。特别是，对多租户的需求意味着基础架构必须随时准备就绪，以满足各种工作负载和客户端的性能要求。

InstaDeep基础架构团队在部署其第一个GPU服务器系统的早期就了解到，本地GPU服务器的存储容量将太有限，只有4TB的本地存储，而客户的工作量则需要10到100 TB的TB。该团队研究了外部存储选项，并注意到，使用传统阵列它们将获得更多的容量，但性能最终会阻碍AI工作负载，因为应用程序需要将数据移入和移出GPU系统，从而中断工作流程并影响系统效率。

通过使用软件定义的存储在快速的RDMA网络上合并NVMe闪存(一种将数据集加载速度提高10倍的方法)，InstaDeep可以实现更高的GPU容量利用率，消除了GPU瓶颈并提高了ROI，因为现有的GPU变得更加完整利用。
（责任编辑：fqj）

打开APP阅读更多精彩内容