×

新型的分布式并行稠密矩阵乘算法

消耗积分:0 | 格式:pdf | 大小:4.84 MB | 2021-06-01

分享资料个

  并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石。随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大。如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一。本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA( Parallel Universal matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的 PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果。本文基于 BLACS( Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与 PUMMA算法相结合,最终得到2.5 D PUMMA算法,可直接替换 PDGEM( Parallel double- precision General Matrix-matrix Multiplication),具有良好的可移植性。与国际标准算法库 ScalaPACK( Scalable Linear algebra Package)中的 PDGEMM等经典D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性。在进程数较多时,例如4096进程时,系统测试表明相对 PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5 D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上本文通过大量数值算例分析了2.5DMMA算法的性能,并给出了实用性建议和总结了未来的工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !