这些关键词带你了解智算中心高性能网络

奇异摩尔 2024-09-19 1604

描述

关于智算中心高性能网络

你需要知道的...

以GPT-4和Llama3为代表的大语言模型实现了突破性进展，引爆了高性能计算。由于大语言模型爆炸增长的存储和算力需求，其分布式计算需要芯片间进行高频通信，网络流量急剧增加。所以对通信网络提出超大规模组网、超高带宽、超低时延、超高稳定性和网络自动化部署新需求，典型网络架构转向多核心、少收敛形态。

以下这些关键词带你更快了解高性能网络的通信及互联需求。

RDMA技术解析

RDMA(RemoteDirect Memory Access)技术全称远程直接内存访问，就是为了解决网络传输中服务器端数据处理的延迟而产生的。RDMA技术能直接通过网络接口访问内存数据，无需操作系统内核的介入。这允许高吞吐、低延迟的网络通信，尤其适合在大规模并行计算机集群中使用。

RDMA的三大分类

目前支持RDMA的网络协议主要有三种，Infiniband, RoCE和iWARP。Infiniband是一种专为RDMA设计的网络，从硬件级别保证可靠传输，技术先进，但是成本高昂。

iWARP和RoCE都是基于以太网的RDMA技术，但是iWARP是基于TCP/IP协议，相比于基于硬件的RoCE解决方案有更高的性能损失，在高性能网络的环境表现中不如RoCE。

高速、超低延时、极低CPU使用率的基于RoCE的RDMA技术部署在目前使用最广泛的以太网上。RoCE协议有RoCEv1和RoCEv2两个版本，RoCEv1基于以太网链路层，使用以太网帧进行数据传输。RoCEv1没有IP层，因此在传输数据时不使用IP地址，而RoCEv2基于IP层，使用UDP/IP进行数据传输。

RoCEv2将RDMA流量封装在UDP包中，并使用标准的IP地址进行路由。这使得RoCEv2可以在路由器和交换机之间穿越，使其更适用于大规模的数据中心环境。

关于异构计算

高性能计算类应用的发展，驱动算力需求不断攀升，但目前单一计算类型和架构的处理器已经无法处理日趋复杂、多样化的计算任务。数据中心如何在增强算力和性能的同时，具备应对多种类型任务的处理能力，成为全球性的技术难题。在计算领域芯片企业的不断探索和研究中，异构计算成为公认的算力突破“抓手”。

DSA 领域特定加速

随着人工智能及高性能计算的高速发展，模型的训练需要大量的存储资源和计算资源，这些硬件资源的利用率需要通过有效的任务分配和数据处理来优化。在分布式人工智能及高性能计算系统中，多个计算节点之间需要频繁通信，要求网络具有低延迟和高带宽，以避免通信瓶颈。针对网络加速的DSA专用单元对任务卸载、加速，减少节点之间的数据延迟，提升数据传输效率，使CPU，GPU，NPU专注于核心计算任务，加速各项计算、存储任务。

打开APP阅读更多精彩内容