选择GPU服务器需要考虑哪些情况如何才能提升GPU存储性能

Rob_51b 2021-02-08 4260

电子说

1.4w人已加入

描述

　　GPU是我们常用器件，采用GPU，才使得图形显示成为可能。在上期文章中，小编对GPU的加速原理等知识有所阐述。为增进大家对GPU的认识，本文将基于两点介绍GPU：1.选择GPU服务器需要考虑哪些情况，2.如何提升GPU存储性能。如果你对GPU具有兴趣，不妨继续往下阅读哦。

　　一、如何选择GPU服务器

　　当GPU型号选定后，再考虑用什么样GPU的服务器。这时我们需要考虑以下几种情况：

　　第一、在边缘服务器上需要根据量来选择T4或者P4等相应的服务器，同时也要考虑服务器的使用场景，比如火车站卡口、机场卡口或者公安卡口等;在中心端做Inference时可能需要V100的服务器，需要考虑吞吐量以及使用场景、数量等。

　　第二、需要考虑客户本身使用人群和IT运维能力，对于BAT这类大公司来说，他们自己的运营能力比较强，这时会选择通用的PCI-e服务器;而对于一些IT运维能力不那么强的客户，他们更关注数字以及数据标注等，我们称这类人为数据科学家，选择GPU服务器的标准也会有所不同。

　　第三、需要考虑配套软件和服务的价值。

　　第四、要考虑整体GPU集群系统的成熟程度以及工程效率，比如像DGX这种GPU一体化的超级计算机，它有非常成熟的从底端的操作系统驱动Docker到其他部分都是固定且优化过的，这时效率就比较高。

　　二、如何提升GPU存储性能

　　要获得最佳的GPU存储性能，就需要根据业务目标对基础架构进行微调。这里有三种方法可供考虑。

　　1.大规模调整性能

　　AI部署的快速增长和ML训练数据集的大小增加了计算基础架构的负担，STFC（The Science and Technology Facilities Council ）则是这种典型的代表。尽管STFC已添加了高端GPU服务器以提供更高的计算支持，但STFC缺乏在数百个Researchers 中扩展资源所需的企业级存储功能。

　　通过在具有RDMA功能的高速网络（例如Infiniband或融合以太网（RoCE）v2上的RDMA）上实现NVMe-over-Fabrics协议，大型AI / ML用户组（例如STFC）可以虚拟化NVMe SSD在各种服务器上未使用的存储资源池，因此它们的性能就像在本地一样。通过这样做，可以在一个小时内完成机器学习培训任务，而以前则需要三到四天。即使具有复杂的模型训练任务，GPU存储也不再是瓶颈。

　　2.在并行文件系统下使用NVMe池化存储

　　当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时，作为存储基础架构就必须部署并行分布式文件系统。并行文件系统还使存储更容易实现大多数AI / ML使用所需的高吞吐量和低延迟。在并行文件系统下具有快速、灵活的池化NVMe存储，可以改善对元数据的处理，从而实现更高的读取性能和更低的延迟，从而提高GPU服务器的利用率。

　　例如，一家超大型技术提供商最近推出了一种AI解决方案，用于预估保险公司使用的车辆碰撞场景。为了开发应用程序背后的AI逻辑，应用程序工作流涉及培训模型，方法是摄取多达2000万个小文件数据集，其中每个文件大小在150-700 KB之间。数据提取通常每8小时以100万个文件的速度或者每个客户端每秒最多35，000个文件进行。

　　通过在并行分布式文件系统下使用池化NVMe存储方法，该技术提供商消除了它遇到的存储瓶颈，并将存储性能提高了3-4倍。

　　3.检查特定于GPU的“高速公路”

　　新的数据中心架构正在以统一的方式提高服务器、网络和存储的性能。一种类似的方法于2019年秋季首次亮相，它将来自多个供应商的基础架构元素与GPU优化的网络和存储进行集成，以在GPU内存和存储之间打开直接的数据通道，从而完全绕开CPU。这使数据能够在GPU、存储和网络设备提供的“开放高速公路”上进行传输，从而实现了对NVMe企业级卓越性能的无障碍访问。

打开APP阅读更多精彩内容