随着高性能并行计算系统规模越来越大,软件和硬件发生故障的概率随之增大,系统的容错性和可靠性已经成为应用可扩展性的主要限制因素。并行检查点技术可以使系统从故障中恢复并减少计算损失,是高性能计算系统重要的容错手段。本文将介绍检查点技术的背景和定义,研究并行检查点协议的分类,检查点存储技术,以及利用这些协议和技术实现的MPI并行检查点系统,最后给出对各个关键技术的详细评价及结论。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉