从数据中心到数据型中心:存储平台演绎121协奏曲

描述

我是谁?我从哪里来?要到哪里去?要回答关于数据中心的灵魂三问,得从上个世纪60年代说起。 那时,一些“大块头”的计算机喜欢“扎堆儿”,最原始的机房就出现了。后来又有了小型机,PC和服务器也联袂亮相,“数据中心”概念逐渐浮出水面——只不过冠以“数据”多少有些名不副实,机房更像是“设备中心”。

到了新技术风起云涌的90年代,互联网数据中心(Internet Data Center,简称IDC)开始大行其道,其定位是为有互联网与通信需求的用户,提供托管维护、场地出租、带宽租赁等服务,此刻的数据中心相当于“服务中心”。 接下来登场的是从本世纪初一直活跃至今的云计算、科学计算,它们彻底改变了传统的IT基础设施构建模式和运行方式,引发数据中心“大干快上”的热潮。当然,很多新落成的IDC已不再叫“数据中心”,“算力”、“智算”等名称更契合计算当道的局面。 故事演绎到这里,数据中心似乎总是“名不正、言不顺”,而真正的转折点虽迟但到。人工智能和数据要素联袂出击,前者以数据为“燃料”并激活数据潜能,后者重构数据底座且打造数据空间,二者共同驱动数据中心向“数据型”中心加速蜕变,延迟了半个世纪的“正名时刻”终于到来。 当“数据型”中心站到历史舞台的中央,最靠近数据的存力自然地位擢升,存储架构乃至整个存力基础设施的变革更是备受瞩目——过往的容量、性能等指标已难以适应新的需求,围绕多元混合负载和数据全生命周期重塑存储基座迫在眉睫。   新型工作负载引领存储基座的演进方向 从某种意义上讲,工作负载的不断变化是数据中心持续进化的最大动力,也是存储基座谋求变革的核心基石。人工智能和数据要素是“数据型”中心的两类新型负载,透过其演进轨迹可以找到存储迭代升级的最佳路径。

在生成式AI加速渗透的背景下,人工智能工作负载主要涵盖模型训练、微调、推理和应用等环节。伴随大模型技术步入相对“稳态”,以数据驱动模型优化及应用落地变得尤为重要。存储在AIGC场景中也不再是简单的数据容器,而是推动人工智能发展的核心组件。 与风光无限的生成式AI相比,已升格为五大生产要素之一的数据要素丝毫不落下风。数据要素工作负载包括数据基础设施的建设、数据空间的生成与应用等,以数据为中心达成“人机物”智联融合,打造资源利用率最优的“数据型”中心是其预期目标。不难看出,新型工作负载不约而同地将数据托举到“C”位,这对存储基座带来了前所未有的挑战:一方面,人工智能对多类型数据的快速归集、海量EB数据的混合负载、高维向量数据的组织形式和数据的全命周期管理寄予更高期望;另一方面,可信数据空间作为数据要素的资源中心,要求存储在数据跨域管理、高效流通共享、数据安全调用及节能降耗等维度再上台阶。

存储

针对存储基座面临的诸多痛点,产学研各界都在积极探索破局之道。近日,由中国电子技术标准化研究院、存储产业技术创新战略联盟等数十家产学研机构联合发布的《AIGC数据存储研究报告》新鲜出炉,归纳出新环境下存储能力的“六位一体”画像,即要在处理、容纳、管理、安全、共享、数据流动等方面协同发力,为存储基座的演进指明了方向。   除了方法论的指引,在实践层面寻找突围路径同样至关重要。浪潮信息存储认为,“数据型”中心迫切需要构建数据近计算存储和数据全生命周期存储两大能力,而当前的存储架构无法满足新兴场景的多元需求,亟需打造面向未来数据中心的存储平台。   新型存储平台演绎“121”协奏曲 目前,市场中主要存在4种存储架构,即集中式、分布式、超融合和云存储。每种架构各有优劣势,但都难以完全匹配数据近计算和数据全生命周期两种关键场景。     以集中式存储为例:其具有IO性能高、时延低等优点,可以在近计算存储领域施展身手,但受制于域扩展能力不足,无法满足全生命周期存储要求。此外,超融合存储在性能和扩展能力上均短板明显,云存储扩展能力虽强却有性能欠缺之憾,都难以承担存储架构变革的重任。 相对而言,更具扩展能力和灵活性的分布式存储有机会挑起大梁,但也要以创新思路打破既有的桎梏。浪潮信息存储首席架构师孙斌认为,“数据型”中心需要一套心边一体、存算分离、服务融合的新型存储架构,可组合分布式融合存储(CDFS)即是典型代表。它以全IP互联为基础,通过机柜级存储底座(BoR)和数据中心级存储底座(BoD),实现机柜内、数据中心级的存算分离,提升存算协同、数据共享及流转效率,进而借助场景共同体驱动存储平台完成跃迁。

存储

笔者将其浓缩为“121”协奏曲——1套可组合架构×2种底座模式×1个生态包容的场景共同体。三个部分互为依托、相辅相成,形成强大的新型存储基座,为“数据型”中心发展保驾护航。  开创先河的可组合分布式融合存储CDFS为存储架构创新树立了新标杆。它分为三层三面两体,堪称全方位、立体式解决方案。其中,数据编织层建立数据跨地域、跨系统的流通技术规范,微服务化功能层推进控制面软件定义、数据面链路加速、智能面感知调度,硬件资源层则致力于实现存算资源按需弹性组合。BoR和BoD两种存储底座模式为化解不同负载场景的难题找到了最优解。机柜级存储底座由一台存储应对单个机柜计算节点的存储性能、容量、时延诉求,拥有近计算高性能和极致性价比,可满足边缘数据中心或小型数据中心的xPU高效IO需求;数据中心级存储底座则包含跨云跨域跨系统的统一智能数据管理平台、融合多种协议多样算力多类介质的分布式存储融合架构和全局全域的数据编织存储能力,主要为大规模、超大规模数据中心的AI数据就绪奠定根基。   新存储架构的场景化落地与生态共建 如果说可组合分布式融合架构和面向不同工作负载的底座模式为“数据型”中心重构存储平台创造了必要条件,那么以产品利器深入真实场景,并构建富有活力的生态体系,则是“数据型”中心行稳致远的根本保障。 早在今年5月,浪潮信息就发布为大模型专门优化的分布式全闪存储AS13000G7-N系列,其后又重磅推出基于新一代分布式存储平台AS13000G7的AIGC存储解决方案——在国际权威MLPerf AI存储基准评测中,AS13000G7勇夺8项测试中5项性能全球第一,并在高校科研、自动驾驶等场景赢得高度认可。据孙斌透露,明年3月,还将发布新一代分布式存储新品,并会融入新存储架构的核心技术,CDFS有望落地生根。   站在更开阔的视角,打造以“场景共同体”为核心的生态圈,更有助于存储基座的持续进化。浪潮信息通过技术整合、产品定制、方案联合、服务外包、市场协同等新机制,联合SI、ISV、CSP、服务、方案、产品、技术等产业链合作伙伴,构建起以用户为中心、以应用为导向的场景共同体。据了解,场景共同体已催生出技术领先、一站式服务、商业敏捷等独特价值,千行百业的沃土正绽放生态繁花。 显而易见,“121”既是存储平台变革图新的协奏曲,也是“数据型”中心奔赴未来的脚步声。这条路的探路者并不孤单,携手共建的美好前景值得期待。  

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分