这些关键词带你了解智算中心高性能网络

描述

关于智算中心高性能网络

你需要知道的...

以GPT-4和Llama3为代表的大语言模型实现了突破性进展,引爆了高性能计算。由于大语言模型爆炸增长的存储和算力需求,其分布式计算需要芯片间进行高频通信,网络流量急剧增加。所以对通信网络提出超大规模组网、超高带宽、超低时延、超高稳定性和网络自动化部署新需求,典型网络架构转向多核心、少收敛形态。

以下这些关键词带你更快了解高性能网络的通信及互联需求。

RDMA技术解析

RDMA(RemoteDirect Memory Access)技术全称远程直接内存访问,就是为了解决网络传输中服务器端数据处理的延迟而产生的。RDMA技术能直接通过网络接口访问内存数据,无需操作系统内核的介入。这允许高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。

RDMA的三大分类

目前支持RDMA的网络协议主要有三种,Infiniband, RoCE和iWARP。Infiniband是一种专为RDMA设计的网络,从硬件级别保证可靠传输,技术先进,但是成本高昂。

iWARP和RoCE都是基于以太网的RDMA技术,但是iWARP是基于TCP/IP协议,相比于基于硬件的RoCE解决方案有更高的性能损失,在高性能网络的环境表现中不如RoCE。

高速、超低延时、极低CPU使用率的基于RoCE的RDMA技术部署在目前使用最广泛的以太网上。RoCE协议有RoCEv1和RoCEv2两个版本,RoCEv1基于以太网链路层,使用以太网帧进行数据传输。RoCEv1没有IP层,因此在传输数据时不使用IP地址,而RoCEv2基于IP层,使用UDP/IP进行数据传输。

RoCEv2将RDMA流量封装在UDP包中,并使用标准的IP地址进行路由。这使得RoCEv2可以在路由器和交换机之间穿越,使其更适用于大规模的数据中心环境。

关于异构计算

高性能计算类应用的发展,驱动算力需求不断攀升,但目前单一计算类型和架构的处理器已经无法处理日趋复杂、多样化的计算任务。数据中心如何在增强算力和性能的同时,具备应对多种类型任务的处理能力,成为全球性的技术难题。在计算领域芯片企业的不断探索和研究中,异构计算成为公认的算力突破“抓手”。

DSA 领域特定加速

随着人工智能及高性能计算的高速发展,模型的训练需要大量的存储资源和计算资源,这些硬件资源的利用率需要通过有效的任务分配和数据处理来优化。在分布式人工智能及高性能计算系统中,多个计算节点之间需要频繁通信,要求网络具有低延迟和高带宽,以避免通信瓶颈。针对网络加速的DSA专用单元对任务卸载、加速,减少节点之间的数据延迟,提升数据传输效率,使CPU,GPU,NPU专注于核心计算任务,加速各项计算、存储任务。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分