中科驭数联合处理器芯片全国重点实验室获得“CCF芯片大会最佳论文奖”

驭数科技 2024-08-02 1684

描述

在第二届中国计算机学会芯片大会上，中科驭数与中国科学院计算技术研究所处理器芯片全国重点实验室共同完成的一项成果《GRACE: An End-to-End Graph Processing Accelerator on FPGA with Graph Reordering Engine》获得“CCF芯片大会最佳论文奖”。该项工作由鄢贵海研究员指导完成，论文第一作者是博士研究生樊海爽，论文的其他作者为蒙睿、孙启楚、吴婧雅、卢文岩、李晓维。

GRACE提出一种利用FPGA加速器图预处理及图计算全流程的全卸载方法，解决了其他方法中的预处理瓶颈问题，提高了图计算的端到端处理速度。

图数据在芯片设计、社交网络分析等应用中发挥着重要作用。随着现实生活中图顶点数量的迅速增加以及图数据不规则的内存访问模式，现有的基于CPU和GPU的大规模图处理框架在优化缓存使用方面遇到了挑战。为了解决这一问题，通常利用图重排序的方法改善图的局部性，但这会带来显著的开销导致未能实现显著的端到端性能提升。尽管已有许多基于FPGA的图处理加速器，但要实现高吞吐量通常需要在CPU上进行复杂的图预处理。因此，构建一个高效的端到端图处理系统仍然具有挑战性。

基于此，本文提出了一种基于FPGA的端到端图处理加速器GRACE，它的核心结构包括图重排序引擎和基于Pull模式的顶点中心编程模型(Pull-based Vertex-Centric Programming Model, PL-VCPM)引擎。

本文采用的主要优化方法包括：首先，GRACE采用定制的高度顶点缓存(High-Degree Vertex Cache, HDC)来提高内存访问效率;其次，GRACE定制了高效的图重排序引擎以完成图预处理;第三，GRACE采用了图剪枝策略，以消除图处理中的激活和计算冗余;最后,GRACE引入了图冲突板(Graph Conflict Board, GCB)以解决数据冲突，并通过多端口缓存提高并行效率。

实验结果表明，本文所提出的GRACE的端到端处理性能在多个图算法和数据集上平均为通用CPU的10倍、GPU的2.3倍，超过现有基于FPGA加速器方法的34倍，展现出卓越的端到端处理效果。

实验平台利用中科驭数自研的数据网络应用开发平台“开物K-Machine”，模拟了端到端的图像处理环境。开物平台拥有功能完善的基础组件、简单高效编程、灵活可扩展、丰富的外围接口，旨在简化数据网络领域的开发流程，可以帮助开发研究人员实现开箱即用，一键部署，打通DPU算力的最后一公里，确保用户的每一行代码都能直接转化为核心创新。

打开APP阅读更多精彩内容