近日,云尖信息正式推出面向AI大模型训推与高性能计算场景的分布式存储解决方案。该方案以"高性能全闪层+大容量混闪层+高速无损网络+分布式并行文件系统+多协议统一访问"为架构核心,由CS8000 X6与CS6000 X6双产品协同构建分层数据底座,直击智算中心"存力拖后腿"的行业痛点。
当前AI大模型已迈入万亿参数、百万Token上下文的规模,智算中心从"堆算力"进入"拼系统效率"的新阶段。GPU集群要高效运转,必须依托算力、网络、存储、调度和运维的整体协同。而存储系统正从传统的数据承载平台,升级为直接影响GPU利用率、训练效率和业务连续性的关键基础设施。
海量训练数据、高并发访问、Checkpoint高频读写、冷热数据混合管理——这四大需求同时叠加,传统存储架构已难以应对。云尖信息的思路很明确:不追求一套方案包打天下,而是把好钢用在刀刃上。
CS8000 X6——全闪加速层,专为性能而生。 单节点顺序读带宽高达40GB/s,典型小文件场景下IOPS突破400K+。作为全闪层,它主要承载大模型训练热数据集、Checkpoint高频读写、模型加载与分发、高并发文件访问等低时延、高吞吐需求。更关键的是,CS8000 X6原生支持NVIDIA GPU Direct Storage(GDS),数据可直接在NVMe SSD与GPU显存间传输,绕过CPU和内存瓶颈,延迟最高降低3.8倍,吞吐量提升2至8倍。对于千卡、万卡规模的GPU集群,这意味着GPU利用率可实质提升30%以上。
CS6000 X6——混闪容量层,专为海量数据而生。 支持大规模横向扩展,单文件系统容量达200PB以上,支持百亿级文件管理。它融合NVMe SSD、SATA SSD与高性能HDD构建多级存储层,内置智能分层引擎,根据访问频率自动将热数据驻留SSD、冷数据归档至HDD。主要承载海量非结构化数据、冷热混合数据集、全量训练数据与历史数据、日志归档备份等中长期数据生命周期管理需求。
两者协同,形成"高性能访问+大容量承载"的完整体系,在保障性能的同时大幅降低全量全闪带来的成本压力。
性能释放 : 高性能分布式并行存储与高速无损网络协同,消除大规模并发访问下的I/O瓶颈,减少GPU等待数据的时间,让算力资源充分释放。
分层承载 : 高频热数据与低频冷数据分层存放,兼顾性能与成本,解决数据持续增长带来的存储扩容焦虑。
多协议统一访问 : 全局命名空间兼容POSIX、CIFS、NFS、SMB、HDFS、HTTP、MPI-IO等多种协议,同一存储池同时服务AI、HPC、大数据和通用业务,消除数据孤岛与重复迁移。
高可靠架构 : 支持3/4副本及N+2、N+3等多种纠删码配置,硬盘、节点、网络故障下自动修复,业务无中断。
弹性扩展 : 支持在线横向扩展至8192节点,容量与性能线性增长,匹配智算中心从百卡向万卡演进的需求。
平滑迁移 : 基于AFM技术实现异构存储平台间的数据增量与渐进式迁移,降低数据迁移成本与风险。
值得关注的是,CS6000 X6采用对称分布式架构——所有节点同时承担元数据与数据服务角色,无独立元数据节点,既避免了集中式瓶颈和单点故障,又大幅简化部署运维。CS8000 X6同样延续这一设计理念,配合多源零拷贝、软拷贝、快照、远程复制等企业级特性,构建起一套真正面向AI时代的存储底座。
在智算中心建设中,算力决定上限,存储决定效率,网络决定协同。云尖信息以CS8000 X6和CS6000 X6为核心,正将存储从算力的"配角"推至与算力、网络平起平坐的关键基础设施位置,为AI训练、集群推理、HPC及海量非结构化数据处理提供稳定高效的数据支撑。
全部0条评论
快来发表一下你的评论吧 !