电子说
随着数字化进程的加快,各企业、组织对大规模计算服务集群的需求与日俱增,运维难度也随之加大。浪潮作为全球领先的算力基础设施供应商,推出了ISPIM平台,可同时实现对数万台不同品牌服务器、存储、网络设备等设施的统一监控、运维和告警管理,保障客户大规模数据中心安全、稳定、可靠运行。
截至目前,中国高校信息化进程已经走过二十余载,从最初的校园信息化建设到如今的智慧校园,数字化转型下的高校教学、科研、管理和服务对算力的需求也在不断攀升。以中南大学算平台为例,基于传统运维模式已无法对计算服务器集群的算力进行管理、调度和科学合理分配计算资源,算力应用处于黑箱模式,类似于盲人摸象,不清楚、不清晰,无法实现对计算集群快速而精准的有效运维,也造成了运维人力资源的沉重负担。
为了解决传统人力运维管理面临的窘境,中南大学选择与浪潮信息合作。通过实地考察、调研并与中南大学HPC平台管理和技术人员进行多次反复的交流、沟通和分析、研究,浪潮信息研发工程师最终决定以“1+1+N高可用模式”,在5台服务器上部署ISPIM系统,主动采集频率为45min,监控指标可达150W+,覆盖智算平台内的所有设备。
浪潮信息ISPIM系统基于AI算法,对采集到的所有设备的能耗、温度、气流、CUPS以及机房环境数据进行实时智能分析,推送能耗管理与优化建议,通过可视化拓扑呈现,3D建模展示数据中心内机柜位置、位置、功耗、温度状态信息,实现对整个数据中心的细粒度管理。
一方面,中南大学智算平台通过部署浪潮信息ISPIM系统,实现了集中自动化管理,大大减轻了运维负担,通过对算力数据的精准获取、调度,使得算力的管控集中化、智能化,另一方面,运维人员通过ISPIM平台可随时随地监控整个平台的运行状态,故障报警能够以秒级的速度精准定位,保障中南大学的智算平台高效有序运转,节约了人力资源,运维效率大幅提升。
在未来,浪潮信息将持续关注大规模计算服务集群的需求,基于ISPIM平台,提供优质的自动化运维解决方案,为千行百业赋能。
全部0条评论
快来发表一下你的评论吧 !