从MLPerf Storage v2.0看存储系统如何选择

描述

在当下数智化浪潮中,数据中心架构正经历深度重塑。从GPU集群到网络带宽,从电力负载到能效管理,每一项设计都在被重新定义。

近日,IT媒体《Datacenter Knowledge》发布报道指出,MLPerf基准测试正在成为全球智能基础设施评估与数据中心设计的重要依据。

为何这么说?我们一起来看

MLPerf:智算时代的共同性能语言

随着机器学习和智能应用日渐普及,如何衡量智能训练在不同硬件与软件环境下的表现,成为了数据中心设计中的核心议题。

在这一背景下,MLPerf(Machine Learning Performance)作为全球机器学习性能标准应运而生,自2018年推出以来,MLPerf Training基准测试迅速成为衡量智能训练性能的核心工具,帮助数据中心专业人士基于真实数据做出基础设施决策,从而契合不断演进的工作负载需求。

MLPerf由MLCommons.org维护,成员包括戴尔科技集团、Meta、Google、NVIDIA、Intel、Microsoft等125家企业与研究机构。其核心使命,是让智能系统的性能比较“既公平,又有意义”。

RISC芯片先驱,MLCommons负责人David Patterson指出,智能训练已成为一种“超级计算问题”,而评估的标准必须兼顾多架构、多软件栈与多场景。

因此,MLPerf Training通过统一任务、数据集与精度目标,为各类系统提供了可重复、可验证的对比基础。

正如《Datacenter Knowledge》所说:“MLPerf已不仅是性能测试工具,更成为数据中心架构师的决策指南。”

从MLPerf Storage v2.0看存储系统如何选择

在MLPerf Training成为衡量计算性能的重要参考之后,业界也开始意识到,智能训练不仅是算力的挑战,更是存储系统能力的试金石。

尤其在训练规模快速扩张的今天,如何支撑长时间、高频次、分布式的训练任务,存储系统正逐步走向台前,承担起保障训练稳定性的重要职责。但评估智能训练性能,仅关注速度已远远不够。

例如,在MLCommons发布的MLPerf Storage v1.0基准测试中,主要考察的是存储系统在智能训练中是否具备足够的吞吐能力和低延迟性能,以支撑高速智能训练,避免“算力等存力”的性能浪费。

而在最新发布的MLPerf Storage v2.0基准测试中,则聚焦于训练过程中的系统可靠性与中断恢复能力,并首次引入了“Checkpointing(检查点保存)”,模拟因硬件故障导致训练中断时,存储系统在保存与恢复训练进度中的响应速度和稳定性。

这是因为随着训练规模越大来越大,训练持续时间也越来越长,而如果没有高效的检查点机制,训练可能需要反复回滚,大量算力与能耗将被浪费,自然会阻碍企业智能训练的进程。

因此从MLPerf Storage v1.0到v2.0的变化可以看出,智能训练对存储系统的要求,已经从单纯的“快”向“稳”与“可恢复”转变。

吞吐率和延迟依然重要,但系统的持续写入能力、并发处理能力与故障恢复能力,正逐渐成为判断一套存储系统是否“能扛住训练”的关键指标。

那么问题来了,企业应如何选择能真正支撑智能训练的存储系统?

戴尔PowerScale稳住算力,撑起智算未来

在存储系统的性能、稳定性、可扩展性成为智能训练核心考量的当下,戴尔PowerScale凭借面向大规模并行任务设计的架构,已被广泛部署于智能训练与HPC环境中,尤其适配检查点密集型场景。

点击图片了解产品信息

咨询客服还可了解更多优惠活动

首先,从架构来看,PowerScale的核心是一个由OneFS软件驱动的智能架构,专用于管理分布式环境中的非结构化数据。

具体来说,包含以下三个基础层:

客户端访问层

网络文件系统的这一关键组成部分可确保从各种客户端和工作负载对非结构化数据的无缝访问。客户端访问层使用高速以太网连接并支持多种协议,例如网络文件系统(NFS)、服务器消息块(SMB)和Hadoop分布式文件系统(HDFS),简化并统一了不同工作负载的文件访问。

该层采用NVIDIA GPU Direct Storage、远程直接内存访问(RDMA)等前沿技术,为智能应用在GPU内存与存储设备之间直接数据传输提供了便利。它还通过智能负载均衡策略优化性能和可用性,同时利用多租户控制确保安全性和量身定制的服务级别。

OneFS文件呈现层

该层统一了整个集群的数据访问,让用户不再为数据的物理位置而烦恼。OneFS无缝集成了卷管理、数据保护和分层功能,简化了各类存储的大型数据卷管理。

凭借高可用性且可连续无中断运行的特点,该层助力用户轻松实现升级、扩展和迁移,为其提供一个可适配各种需求的智能、高效文件系统。

PowerScale计算和存储集群层:

作为骨干层,该层提供节点和节点间的网络元素,实现可扩展且高可用性的文件集群。从处理基础容量和计算任务的经济型小型集群,到可容纳PB级数据的大型配置,PowerScale都能在不增加任何管理负担的情况下,轻松扩展和自动平衡集群。

其次,PowerScale是业界率先通过NVIDIA DGX SuperPOD认证的企业级文件存储解决方案,这表明其拥有强大的数据吞吐和并发能力,确保GPU在训练和微调过程中始终保持“满负荷”状态,实现算力投资的最大化回报。

第三,PowerScale能够高效处理大规模顺序写入,即使在高频、高并发的检查点写入场景下,也能保持线性带宽输出,从而最大限度降低计算回滚带来的时间与成本损失。

第四,PowerScale的架构支持无中断扩展与升级。无论是增加节点以提升容量和性能,还是应用最新的软件特性,都无需中断现有训练任务,满足企业不断发展的需求。

这一特性对于NVIDIA DGX SuperPOD等持续运行的训练集群尤为关键。用户既能保持训练连续性,又能享受PowerScale技术的迭代进步。

结 语

随着MLPerf在智能计算领域的广泛应用,它不仅成为衡量训练性能的关键工具,也为数据中心架构设计提供了统一、量化的参考标准。

作为面向高并发训练场景构建的企业级文件存储系统,PowerScale凭借出色的数据吞吐、恢复能力和架构可扩展性,成为支撑新一代智能基础设施的可靠选择。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分