华为星河AI高算效数据中心网络为安康智算中心注入强劲增长动能

描述

抢抓“东数西算”战略机遇,陕西安康正以智算基础设施建设为抓手,激活数字经济发展新动能。陕西智算云谷科技有限公司成立于2023年。公司聚焦打造陕西第一、全国领先的人工智能计算中心(安康智算中心),规划建设百亿级智算产业基地,以新型信息基础设施为支撑,全面赋能安康及全省数字经济高质量发展,树立区域人工智能计算集群建设标杆,助力区域产业数字化转型跃升。

安康智算中心作为区域智算产业核心载体,配备超一流硬件设施与高效运维管理体系,为AI大模型训练、优化与场景应用提供强劲算力支撑,让企业、科研机构及个人开发者能够便捷获取高性能计算资源,有效降低AI技术应用门槛,推动人工智能技术从实验室走向产业一线、实现普及落地。据悉,该智算中心占地102.7亩,总投资47亿元,其中一期投资21.97亿元, 2024年建成投用,算力规模将达到1000P,全面建成运营后可提供30000P智能算力,预计实现年营业收入10亿元,带动上下游聚集产业产值100亿元。

针对海量数据处理与复杂模型训练的核心算力需求,安康智算中心持续加速AI创新迭代,聚焦高并发、低延时、高可靠的算力供给,以全栈式智能算力服务为行业创新筑牢算力底座。目前,一期项目算力资源已实现100%高效饱和运行,专供国内AI大模型领域某头部科技企业,构建起“算力-场景-价值”三位一体创新生态,高效支撑其在教育、医疗、文旅、游戏及智能制造等领域的大模型研发与应用落地,显著提升行业智能化水平。

依托一期成功经验,安康智算中心下一步将持续拓展算力应用场景,重点布局智能制造、现代中医大模型等高价值创新领域,为区域产业智能化升级提供稳定可持续的算力支撑。

随着安康智算中心AI集群规模持续扩大、业务类别不断丰富,传统AI集群网络方案逐渐暴露出诸多短板,难以应对日益凸显的系统性挑战和核心诉求,具体体现在三个方面:

流量均衡失效,造成算力投资浪费

在AI大模型训练场景中,业务流量呈现流数少、流量大、模式固定的鲜明特征,传统通算网络中基于Hash的负载均衡机制完全失效,导致部分链路拥堵、部分链路空闲的不均衡现象,网络整体吞吐率通常仅为50%~60%,即便引入LBN/DLB等负载均衡方案,网络吞吐率也难以突破70%。这一问题直接导致客户AI大模型因算力效率不足,训练周期延长10%~20%,大幅拖慢产品上线节奏与市场获客进度,影响产业创新时效。

算力服务化升级,对业务长稳运行提出刚性要求

AI集群网络主要由Spine交换机、Leaf交换机、光模块、光纤(含ODF架)等关键部件构成,其中光模块需大量采购与部署。以安康智算中心某个千卡集群为例,两层组网需部署4千个光模块,光模块与光纤/光缆的可用性直接决定AI集群的整体可用性。按照业界光模块平均年失效率4‰测算,每2~3周就会出现一次AI业务中断,而每次中断都可能引发客户投诉甚至索赔,7×24小时不间断的业务可用性成为智算中心发展的刚性需求。

网络规模扩张,IT运维工作量激增难承载

随着AI集群网络规模的快速扩张,网络运维的工作量与复杂度呈几何级数增长;加之IT运维团队需同时负责网络、计算、存储等多类产品的维护工作,采用传统人工运维模式,仅故障定界就需30分钟至1小时,加上定位定因与处置环节,平均故障处置周期长达2~3小时。对于以算力出租、运营为核心生命线的陕西智算云谷而言,这样的运维效率远远无法满足业务发展需求。

基于前期AI集群网络建设与运维的实践经验,为保障新一期AI集群高效稳定运行,陕西智算云谷对业界多个厂商的数据中心网络解决方案进行深入评估与对比,最终选择华为星河AI高算效数据中心网络解决方案,核心优势体现在高性能、高可靠、智运维三大维度,精准破解安康智算中心发展痛点:

高性能:算力效率提升10%,释放核心算力价值

方案选用华为CloudEngine XH系列智算交换机ROCE组网,搭配华为独家网络级负载均衡NSLB算法,针对AI大模型训练流数少、流量大的场景,实现整网负载均衡,将网络吞吐率从50%提升至95%,直接推动AI训练效率提升10%以上,有效缩短模型训练周期。

高可靠:算力可用率提升10倍,保障业务永续运行

华为是业界唯一具备光模块脏污/松动检测及光模块通道抗损能力的厂商,在AI任务启动前,可提前检测光模块脏污、松动等异常情况,做到防患于未然;在AI任务运行过程中,借助光模块通道抗损能力,即便部分激光器或光纤发生故障,通信链路仍可正常使用,确保AI任务不中断。结合华为严格的品控体系,光模块/光链路失效率降低至约万分之四,相比业界平均水平提升10倍。

智运维:故障运维效率提升90%,降低运维成本

方案通过搭载星翼数字地图的iMaster NCE平台,实现网络与计算的统一可视化、智能化运维,大幅缩短故障定位时间、提升运维效率。该平台通过5大维度65项全量训前自检,确保网络100%健康;依托协同作业平台实现卡间路径路况逐跳可视,可对故障与异常实现秒级感知与快速恢复,将平均故障处置周期从小时级缩短至分钟级,彻底解决传统运维效率低下的痛点,减轻运维团队工作负担。

依托华为星河AI高算效数据中心网络构建的坚实底座,安康智算中心的网络规模与可靠性得到极大提升,智算中心的管理与运维实现全面数字化、自动化、智能化,为智算中心蓬勃发展的业务筑牢基础,也为安康融入“东数西算”布局、打造区域智算标杆提供了有力支撑。

未来,依托智算中心强大的推理与计算能力,安康智算中心将持续构建自适应、高质量的合成数据体系,为大模型研发提供高品质数据集,精准满足大模型与各类下游指令分布对齐的技术要求。同时,项目将带动大量就业岗位落地,推动区域经济结构多元发展,吸引高端人才与创新项目集聚,加快打造区域AI人才高地与创新生态,持续强化区域创新驱动动能。作为人工智能产业发展的关键新型基础设施,安康智算中心将持续发挥核心引领作用,不断提升区域AI研发水平、壮大数字经济规模、支撑智慧城市建设,助力安康与大湾区等区域深化数字经济合作,书写区域数智化转型高质量发展新篇章。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分