×

超级计算机的多模式监控策略

消耗积分:0 | 格式:pdf | 大小:332 KB | 2011-06-02

lantian12

分享资料个

 

运行状态的实时监控是对超级计算机进行高效管理的基础。目前的状态监控都是作为作业调度及资源管理的一个子系统,仅从软件监控的角度提供诸如节点、网络、IO等部件的负载信息,缺乏更深层次的状态数据。而随系统规模的扩大,系统包含的存储、通信、计算、散热、电源、监控等部件的数量急剧上升,由此而来的系统稳定性问题需要多层次、更加全面的状态监控方法,以实现在线故障诊断、失效预测能力。为了满足这种需求,结合现有系统监控手段,提出一种超级计算机的多模式监控策略,从软件状态、硬件状态两个角度,提供针对超级计算机关键部件的多层次、集中式监控方法。在实际系统上的运行结果表明,基于多模式监控策略的故障管理方法能够提高系统运行稳定性及作业成功率:系统平均无全局故障运行时间由原来的8天提高到28天;系统全局故障修复时间由原来的平均1小时降低为平均16分钟;故障引起的失败作业比例由原来的4.6%降低为1.3%。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !