深度学习的存储性能要求以及它的核心功能

独爱72H 2019-11-20 2536

存储技术

622人已加入

描述

（文章来源：比特网）

深度学习算法的本质意味着它们使用了大量的矩阵数学。与计算机图形不同，神经网络和其他深度学习模型不需要高精度浮点结果，并且通常由新一代人工智能优化的GPU和支持低精度8位和16位矩阵计算的CPU进一步加速，这种优化可以将存储系统转变为更大的性能瓶颈。

深度学习模型和数据源的多样性，以及通常用于深度学习服务器的分布式计算设计，意味着旨在为人工智能提供存储的系统必须解决以下问题：各种各样的数据格式，包括二进制对象（BLOB）数据、图像、视频、音频、文本和结构化数据，它们具有不同的格式和I/O特性。横向扩展系统架构，其中工作负载分布在多个系统中，通常为4到16个，用于培训，可能有数百个或数千个用于数据推理。

带宽和吞吐量，可以快速向计算硬件提供大量数据。无论数据特性如何，IOPS都能维持高吞吐量;也就是说，可以实现许多小交易和较少的大转移。以最小的延迟提供数据，因为与虚拟内存分页一样，当GPU等待新数据时，训练算法的性能会显着降低。

深度学习存储系统设计必须在各种数据类型和深度学习模型中提供均衡的性能。根据Nvidia公司一位工程师的说法，在各种负载条件下验证存储系统性能至关重要。

他说，“工作负载的复杂性加上深度学习培训所需的数据量创造了一个具有挑战性的性能环境。考虑到这些环境的复杂性，在投入生产之前收集基准性能数据，验证核心系统（硬件组件和操作系统）是否能够在综合负载下提供预期性能至关重要。”

深度学习存储系统的核心功能，上述性能因素促使人工智能存储系统供应商采用五项核心功能，其中包括：1.可增量扩展的并行扩展系统设计，其中I/O性能随容量而扩展。这种设计的一个标志是分布式存储体系结构或文件系统，它将对象和文件等逻辑元素与保存它们的物理设备或设备区分开。2.可编程的、软件定义的控制平台，它是实现横向扩展设计和大多数管理任务自动化的关键。

3.企业级可靠性、耐久性、冗余和存储服务。4.对于深度学习培训系统，采用紧密耦合的计算存储系统架构，采用无阻塞网络设计，连接服务器和存储，最低链路速度为10GB至25GB以太网或EDR（25Gbps）Infiniband。5. SSD设备越来越多地使用速度更快的NVMe设备，提供比SATA更高的吞吐量和IOPS。

o DAS系统通常使用NVMe-over-PCIe设备。o NAS设计通常使用10Gb以太网或更快的以太网，使用NVMe over fabric、Infiniband或交换PCIe结构。
（责任编辑：fqj）

打开APP阅读更多精彩内容