三种数据中心传输协议的联系和差异

描述

近日,在OCP 全球峰会上,谷歌宣布开放其Falcon硬件传输协议。有业内人士指出,Falcon似乎与超以太网联盟(UEC)和亚马逊的可扩展可靠数据报(SRD)有很多相似之处,在某种程度上,所有这些都是为了解决 RoCEv2 的缺陷。(《ROCEv2 RDMA:TCP的变革者还是取代者?》一文介绍了ROCEv2的部署缺陷以及大厂的解决策略)

超以太网联盟主席J Metz 博士表示,Falcon与超以太网联盟有着共同的愿景,即推动以太网成为人工智能和高性能计算的最佳数据中心结构。本文将深入探讨谷歌Falcon,UEC传输协议以及亚马逊SRD协议,以便更全面地理解它们之间的联系和差异。

谷歌Falcon:一种可靠的低延迟硬件传输协议

Falcon(硬件传输,硬件加速传输层)被誉为下一代以太网,专为以太网数据中心网络中的可靠性、高性能、低延迟连接而设计。谷歌认为Falcon能够提高标准网络上数据传输的性能和效率。

数据中心

Falcon涉及以下技术,包括Carousel、Snap、Swift、PLB和CSIG等。

Carousel:一种流量限制机制(流量整形),允许在各个主机的上下文中调节数据包流的性能和强度。

Snaps:基于微内核的网络子系统,可以通过模块进行扩展,通过模块可以添加高级功能,例如网络虚拟化、流量限制和消息传递功能。

Swift:数据中心级网络的拥塞控制机制,短 RPC 消息可实现低于 50 微秒的延迟,同时在接近 100% 负载的情况下保持每台服务器 100 Gbps 的吞吐量。

RACK-TLP:一种确定 TCP 数据包丢失的算法。

PLB:一种使用拥塞信号的负载平衡机制。

CSIG:一种遥测交换协议,用于发送拥塞和流量控制信号。

PSP:流量加密协议。

Falcon 的各层包括它们的相关功能如下图所示。Falcon 可以支持 RDMA 和 NVM Express 以及其他上层协议 (ULP)。

数据中心

Falcon使用三个关键技术来在高带宽但有损的以太网数据中心网络中实现低延迟。

发送请求和接收响应之间的延迟(RTT,往返时间)的详细测量

硬件实现针对各个流进行流量整形

快速准确的数据包重传

并通过多路径同时访问和支持连接加密的方式补充了这些属性。

在此基础之上,Falcon 被重新设计为一种多协议传输,能够支持具有广泛不同性能要求和应用语义的 ULP。ULP 映射层不仅提供与 Infiniband Verbs RDMA 和 NVMe ULP 的即插即用兼容性,还包括对超大规模应用至关重要的其他创新,例如灵活的排序语义和错误处理。

最重要的是,硬件和软件经过共同设计,可以协同工作,帮助实现高消息速率、低延迟和高带宽等属性,同时保持可编程性和持续创新的灵活性。

Falcon支持将首次在Intel IPU E2000系列网络加速器中提供,该加速器将以太网适配器与可编程处理器相结合,可处理通常在网络堆栈或系统侧执行的操作,如流量和拥塞管理控制以及高级协议分析。

UEC传输协议:比RDMA 更好的以太网传输协议

7 月 19 日,超以太网联盟 (Ultra Ethernet Consortium,UEC) 正式成立,它是一个由 Linux 基金会及其联合开发基金会倡议主办的新组织。UEC 的目标是超越现有的以太网功能,例如远程直接内存访问 ( RDMA ) 和融合以太网 RDMA (RoCE),提供针对高性能计算和人工智能进行优化的高性能、分布式和无损传输层,直接将矛头对准竞争对手的传输协议 InfiniBand。

UEC 联盟提出的UEC 传输协议正在开发中,旨在提供AI和HPC应用程序所需性能的同时保留以太网/IP的优势。UEC 传输是一种靠近传输层的新形式,将提供更灵活的传输,不需要无损网络,允许many-to-many人工智能工作负载所需的多路径和无序数据包传输等功能。

UEC传输协议:

从一开始就设计为在IP和以太网上运行的开放协议规范

多路径、包喷洒传输,充分利用AI网络,不会造成拥塞或队头阻塞,无需集中式负载均衡算法和路由控制器

Incast管理机制,以最小的丢包控制到目标主机的最终链接上的扇入

高效的速率控制算法,允许传输快速提升至线速,同时不会导致竞争流的性能损失

用于无序数据包传送的 API,可选择按顺序完成消息,最大限度地提高网络和应用程序的并发性,并最大限度地减少消息延迟

可扩展未来网络,支持1,000,000个端点

性能和最佳网络利用率,无需针对网络和工作负载进行特定的拥塞算法参数调优

旨在在商用硬件上实现 800G、1.6T 和未来更快以太网的线速性能

日前,OCP 宣布与UEC联盟合作,利用两家组织的专业技能来提高人工智能工作负载的以太网性能。目前初步确定潜在合作的领域包括 OCP交换机抽象接口(SAI)、OCP Caliptra Workstream、OCP网络项目、OCP网卡Workstream、OCP Time Appliance项目和OCP未来技术倡议。(更多内容可点击《剑指InfiniBand,超以太网联盟(UEC)正式成立》)

亚马逊SRD:高吞吐、低延迟的网络传输协议

SRD(Scalable Reliable Datagram,可扩展的可靠数据报文),是AWS年推出的协议,旨在解决亚马逊的云性能挑战。它是专为AWS数据中心网络设计的、基于Nitro芯片、为提高HPC性能实现的一种高吞吐、低延迟的网络传输协议。

SRD 不保留数据包顺序,而是通过尽可能多的网络路径发送数据包,同时避免路径过载。为了最大限度地减少抖动并确保对网络拥塞波动的最快响应,在 AWS 自研的 Nitro chip 中实施 SRD。

数据中心

SRD 的创新在于有意通过多个路径分别发包,虽然包到达后通常是乱序的,但AWS实现了在接收处以极快的速度进行重新排序,最终在充分利用网络吞吐能力的基础上,极大地降低了传输延迟。(更多内容可点击《当网络传输协议SRD遇上DPU》)

SRD的主要功能包括:

乱序交付:取消按顺序传递消息的约束,消除了队头阻塞,AWS在EFA用户空间软件堆栈中实现了数据包重排序处理引擎

等价多路径路由(ECMP):两个EFA实例之间可能有数百条路径,通过使用大型多路径网络的一致性流哈希的属性和SRD对网络状况的快速反应能力,可以找到消息的最有效路径。数据包喷涂(Packet Spraying)可防止出现拥塞热点,并可以从网络故障中快速无感地恢复

快速的丢包响应:SRD对丢包的响应比任何高层级的协议都快得多。偶尔的丢包,特别是对于长时间运行的HPC应用程序,是正常网络操作的一部分,不是异常情况

可扩展的传输卸载:使用SRD,与其他可靠协议(如InfiniBand可靠连接IBRC)不同,一个进程可以创建并使用一个队列对与任何数量的对等方进行通信

数据中心

随着人工智能、高性能计算和大规模数据处理需求的不断增加,对于高效、可靠的数据传输方式的需求也愈发迫切。在未来,我们可以期待看到这些协议不断演进和完善,为数据中心和网络通信领域带来更多的创新和进步。

审核编辑:汤梓红

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分