浪潮信息剖析智能时代数据存储领域面临的挑战与机遇

描述

在当今数字化时代,算力与存力的协同增长已成为驱动各行各业发展的关键力量。特别是在人工智能(AI)这一前沿领域,随着数据量的爆炸式增长,对存储系统的需求日益复杂和多样。近期,在首届CCF中国存储大会上,浪潮信息存储首席架构师孙斌深刻剖析了智能时代数据存储领域面临的挑战与机遇。

算力增长与新范式

近年来,数据中心计算性能的增长呈现出前所未有的态势。据统计,过去20年间,数据中心的计算性能已经增长了超过1000倍。2018年,我们迎来了特定领域架构(Domain Specific Architecture, DSA)发展的黄金时代,这标志着算力增长的新范式已经到来。这一范式以通用算力与AI算力的紧密结合为基础,通过集群扩展和xPU多元编程模式,支撑未来20年计算性能的持续增长。

在传统CPU场景中,逻辑控制遵循摩尔定律,尽管近年来性能增长放缓,但众核与集群扩展技术的应用仍然推动了性能的不断提升。而在GPU/TPU/NPU多场景中,并行计算能力的迅速提升更是令人瞩目,近6年来每年性能增长达2.5倍。CUDA、HIP、OneAPI等编程模型的出现,为AI计算提供了强有力的支持。

智能时代多元存力需求

然而,随着AI技术的广泛应用,智能时代对存力的需求也呈现出多维度、多层次的特征,数据的高效汇聚、析取、流动与算子部署成为了关键所在。据预测,AI合成新数据的规模增速将显著加快,到2025年,其在全球数据总量中的占比将达到10%。为了实时获取洞察力并加速数据价值的变现,存储系统需要满足计算、存储、网络吞吐率1:1:1的比例,而未来20年存力的增长需求更是高达100倍以上。

此外,智能时代的存储需求还体现在多源、多维、多模、多态、多域等多个方面。数据来源于多个行业、设备、阶段,形态也多种多样,包括文本、二进制、数据库等。这些数据需要在云数据中心、边缘数据中心和大型数据中心之间高效流动和协同处理。

制约存储性能提升的隐形枷锁

尽管存储系统在性能上取得了显著进步,但存储节点仍面临诸多挑战。I/O栈依赖的硬件技术发展进入平缓期,单核IOPS效率、多核扩展性、内存和IO带宽与CPU核的比例均呈现下降趋势。这意味着,保持成本与能耗不变的情况下,两年翻番的红利期已经结束。

首先,存储节点的紧耦合设计限制了其灵活性和扩展性。传统存储节点通常采用2/4/5U固定高度,并静态配置CPU、内存、磁盘和网络设备。这种设计虽然简化了部署和管理,但导致了资源利用率低的问题。由于器部件、设备、数据生命周期不匹配,部分硬件提前淘汰,从而造成资源浪费。同时,SSD存控耦合也限制了单盘容量的提升,进一步制约了存储性能的增长。

其次,以CPU为中心编程的I/O栈存在数据通量受限的问题。在处理小规模数据时,这种设计可能表现良好,但随着数据量的增加,CPU逐渐成为瓶颈,限制了数据通量。这使得CPU对数据I/O的五类算子(编码、搬移、比较、查询、插取)的处理效率不高,导致单节点性能上限仅为百万级IOPS。

此外,I/O驱动的存储架构还导致AI就绪数据准备周期长。AI就绪数据通常需要经过清洗、转换、聚合等多个预处理步骤,在I/O驱动的存储架构下,这些步骤往往耗时较长,导致数据准备时间占比超过80%,模型迭代缓慢。

面向未来数据中心的存储底座

为了应对数据洪流的汹涌澎湃,存力必须实现百倍的增长。这一需求不仅是对存储容量的简单扩张,更是对存储架构设计范式的根本性变革。重构存储节点硬件资源的耦合设计、打破以CPU为中心的传统编程模式,将成为支撑未来20年存储效率与扩展能力百倍提升的关键。

在此背景下,浪潮信息存储首次提出了打造“机柜级存储底座(Bottom of Rack, BoR)”和“数据中心级存储底座(Bottom of Datacenter, BoD)”的创新理念。BoR支持近计算端按需组合存储节点配置和软件微服务,能够重构多形态存储系统,满足全场景综合负载需求。而BoD则支持全域、全局、全生命周期的数据编制服务,能够解决数据孤岛问题,提升数据流动效率,为AI应用提供高质量的实时数据,进一步简化部署和运维。

浪潮信息在今年5月份CCF秀湖会议提出的“三层三面两体”新型存储架构理念为BoR和BoD的实施提供了具体的方向:即向内不断优化存储算法、提升硬件性能、完善软件功能,以实现对存储资源的高效利用和灵活扩展;向外积极与云计算、大数据、人工智能等新兴技术融合,推动存储系统的智能化、自动化和云化发展。

近年来,浪潮信息存储积极探索新型存储系统与架构技术,以应对智能时代的存储需求。其中,解耦可组合存储硬件/软件设计v2.0是关键的创新方向。这一研究深入探索控制/计算、多层异构介质硬件资源的解耦与互连,以及存储功能软件组件的微服务化与通信机制。通过AI统筹的存储I/O栈微服务、线程、协程并发调度,实现近线性扩展。同时,基于新协议互连,实现软件动态定义逻辑控制节点,实现存算资源按需弹性组合,SSD模组解耦控制服务软硬件与定义盘控协同规范,从而支撑SSD容量密度达到PB级。

此外,浪潮信息存储还致力于面向数据算子的xPU协同编程新模式的研究。该模式通过聚焦传统存储数据I/O流和AI就绪的数据算子硬件加速技术,旨在建立xPU协同编程的新模式。通过分布式共享缓存架构和数据算子硬件加速技术,这一模式能够实现单节点千万级IOPS高通量和跨节点近线性扩展,从而大幅提升存储系统的性能。

在全域全局全生命周期数据编织服务平台方面浪潮信息存储也进行了深入研究。通过构建全域、全局、全生命周期的数据编织服务平台,实现API驱动的数据容纳、处理、安全、流动、共享和管理。该平台突破了数据与存储系统解耦技术,建立了数据流通技术规范,驱动数据跨应用、跨系统、跨云共享。同时,主动元数据管理引擎、数据与算子的统筹部署为AI实时提供高质量的就绪数据,进一步提升了存储系统的智能化和自动化水平。

在智能时代的大背景下,浪潮信息存储不断探索和突破新型存储系统与架构技术,以应对日益复杂和多样的存储需求,通过创新举措正逐步构建起一个高效、可扩展、智能化的存储生态系统。未来,随着技术的不断进步和应用场景的不断拓展,浪潮信息存储将继续引领存储行业的发展潮流,为数字经济的繁荣发展贡献力量。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分