电子说
01
超级计算机和FPGA
1、超算?
大数据、基因科学、金融工程、人工智能、新材料设计、制药和医疗工程、气象灾害预测等领域所涉及的计算处理,家用个人计算机级别的性能是远远不够的。超级计算机(以下简称超算)就是为了解决这种超大规模的问题而开发的。超算并没有一个明确的定义, 通常所说的超算大致是性能在家用计算机的1000倍以上,或者理论性能在50 TFLOPST以上的系统。
FPGA作为可以提高超算能效比的通用器件受到了广泛关注。从性能、灵活性和功耗效率方面,CPU、FPGA和ASIC里面FPGA走的是中间路线。FPGA的功耗效率是高于CPU的,灵活性高于ASIC;从功耗效率、性能保障性和算法适用性来看,FPGA应该是碾压GPU的。GPU适用的算法非常有限,拿到一个算法,能否达到最终的性能是有风险的;早期GPU的实现算法非常容易,但是自从Xilinx在高层次综合HLS方面深度耕耘后,FPGA的编程容易度也降低了很多。其优势是不但可以作为运算加速器,还可以作为连接器件让超算中众多的运算处理器和运算加速器更紧密地结合。此外,IoT技术正在推动硬件基础设施的升级,今后运算和数据的集中化和分散化进程都会加速发展。在这个进程当中,为了运用超算技术,也要求数据中心具备更加崭新和有效的方法和技术口。除了大规模计算以外,从强化升级社会IT基础建设的角度上看,超算技术也越来越必要。因此,PLD/FPGA必将会在超算中得到更广泛的运用。
02
超算中的FPGA应用案例
1、首先是筑波大学20世纪70年代开始研发用于科学计算的并行计算机PACS/PAX,而HA-PACS是该系列的第8代。PACS/PAX系列自开发之初就以实现了CPU和内存间的高速互联架构而闻名。HA-PACS是PACS/PAX系列中首次采用GPU作为运算加速器的超算。用GPU提高超算性能,还必须要实现能够充分发挥GPU高运算性能的并行系统架构。然而,HA-PACS开发时的GPU存在些问题,导致难以实现高效的并行系统架构。例如在多个GPU间共享数据时,传输前后需要在宿主CPU的主存中进行数据复制。还有将数据传输从PCle转为其他通信方式时,很难削减通信延迟。为了改善这些问题,HA-PACS系统基于PEARL ( PCI Express Adaptive and Reliable Link)概念提出了TCA ( Tightly Coupled Accelerato-rs) 技术,并开始开发实现TCA的PEACH2板卡。
那么由CPU+GPU+FPGA组成的异构系统的性能又如何呢? HA-PACS/TCA是一个只有64个节点的小规模系统,理论性能为364.3TFLOPS,实测性能为277.1 TFLOPS, 2013年11月位列TOP500的第134名。另外,由于该系统达到了3.52 GFLOPS/W的高能效比,在2013年11月和2014年6月的Green500榜中位列第3名。HA-PACS/TCA的基础部分采用GPU和CPU组合来实现高性能、低功耗的运算,再加上基于FPGA的PEACH2的使用,进一步提高了跨学科合作应用中的运算性能。
PEACH2提供了可以让多个GPU直接互联通信的框架。具体来说,PEACH2扩展了PCle通信连接,并实现了GPU间的直接通信,从而达到了提高数据传输效率的目的”。技术上,PEACH2实现了一种路由,可以将PCIe协议中Root Complex和多个End Point间的数据包在多个节点间传输。
原本的数据传输路径GPUmem→CPUmem→(InfiniBand/MPI)→CPUmem→GPU mem, 缩短为了GPU mem→(PCIe/PEACH2)→GPU mem,即GPU间的直连传输。此外,通信协议的统一也实现了比InfiniBand更低的延迟。
下面一起看一下PEACH2的通信性能。PEACH2具备4个PCleGen2 x8 (8通路)端口。这里的端口数量上的限制并非源于PEACH2本身,而是因为所采用的FPGA器件的物理限制,这点可以通过FPGA制造技术的提升而改善。PEACH2中GPU对GPU的DMA的Ping-pong延迟为2.0us ( 100万分之2秒),CPU对CPU的延迟为1.8 us,可以说通信延迟十分小了。PEACH2能达到这种性能要归功于使用了PLD/FPGA,正因如此它才能将传输开销降低到2.0 us的程度。这个性能和MVAPICH2 v2.0-GDR ( 带GDR : 4.5us ;不带GDR : 19 us) 相比已经足够了。FPGA的采用实现了轻量化协议、多RootComplex互联、Block-Stride通信硬件,从而获得了高应用性能。此外,在Ping-pong带宽方面,PEACH2 的CPU对CPU的DMA传输性能约为3.5 GB/s,达到了理论性能的95%;GPU对GPU的DMA性能约为2.8GB/s。然而,当负载大小超过512 KB时MVAPICH2 v2.0-GDR的性能更高,可以在实际应用时根据需求进行选择。综上,无论研究领域或商业系统,今后都会继续探索能够发挥PLD/FPGA优势的高效方法,从而提高系统的整体性能。
2、其次是Cray Research,该公司的超级计算机:XD1就有用上FPGA,XD1用的是Xilinx(赛灵思)公司的VIRTEX系列FPGA。XD1机内有所谓的FPGA应用程序加速模块(FPGA ApplicaTIon AcceleraTIon Module),模块等于是机内的一个小型辅助运算系统,VIRTEX是模块内的主控芯片,等于是一个协同处理器(Co-Processor),只不过这个协同处理器与ASIC型式的协同处理器不同,FPGA具有可程序化的功效,因此VIRTEX是一颗可程序化的协同处理器。运算模块内除了有FPGA的协同处理器外,处理器也必须搭配内存才能行使运算,所以FPGA会再连接4颗QDR II SRAM(极高速性的内存),然后模块一方面用HyperTransport与XD1的主处理器相连,另一方面也连往XD1的特有高速I/O界面:RapidArray。
接着,由于高效运算多是执行大量重复性的运算,例如气象预测、风洞测试等,所以可以将执行的应用程序转化成FPGA内的组态(ConfiguraTIon)程序,以硬件线路方式来执行运算,如此将比过往用纯软件方式执行快上数倍至数十倍的效能,甚至在特定的应用运算上能达一百倍以上的效能。
更仔细而言,其实是将整个应用程序中重复性最高、且最经常用的函数库进行转化,并以FPGA的硬件线路执行,如此就能获得最大的加速效果。
Cray如此,与Cray同为高效运算市场的另一家业者:SGI(视算科技)也实行相同的作法,SGI提出所谓的RASC(Reconfigurable ApplicaTIon Specific Computing,可组态化应用程序性运算,)RASC也是以模块方式让原有的超级计算机能获得加速效果。
SGI的作法与Cray有部分相同也有部分不同,Cray是将模块设置在原有超级计算机的机内,而SGI则是运用既有超级计算机机箱的上部来加搭加速模块,不过就功效机制而言两者异曲同工,此外两者都使用Xilinx的VIRTEX系列FPGA,但是内存与I/O部分两家也实行不同的设计,Cray是使用QDR II SRAM,SGI则是可实行QDR SRAM,或者也可用DDR2 SDRAM,前者容量少(80MB)但速度快,后者容量大(20GB)而速度慢,提供两种选择的原因是可依据不同的应用程序特性来选用。
另外,高效运算业者通常有独门的机内通讯传输技术,RapidArray即是Cray的独家技术,而SGI自身也有独家的传输技术,即NUMAlink 4(已是第四代技术),所以SGI的RASC不是使用RapidArray,而是使用NUMAlink 4。
其实Cray系统内所用的FPGA模块是与DRC Computer公司技术合作而成,因此DRC Computer自身也有提供相近方案,DRC的RPU(Reconfigurable Processor Units)同样也是用FPGA来加速,一样是用Xilinx VIRTEX FPGA,但与主系统间的连接接口改成AMD Opteron处理器的接座接口,如此一般使用AMD Opteron处理器的x86服务器也可以加装RPU来提升高效运算的效能。
原文标题:FPGA应用案例——超级计算机
文章出处:【微信公众号:FPGA技术联盟】欢迎添加关注!文章转载请注明出处。
责任编辑:haq
全部0条评论
快来发表一下你的评论吧 !