浅析以太网的发展走势

描述

本月,NVIDIA创始人兼CEO黄仁勋在COMPUTEX 2024发表了主题演讲,宣布NVIDIA Spectrum-X以太网网络平台已被业界广泛使用,并且将进一步加快新品发布计划。

本期Kiwi Talks将从利好以太网发展的几个因素出发浅析一下以太网的发展走势...

云厂商从训练侧逐步过渡到推理侧

随着AI大模型变得更精简、可在设备上运行并专注于推理任务,芯片制造商的市场重心将转向推理,即模型应用。展望产业发展趋势,AI算力负载有望逐步从训练向推理端迁移,从而降低AI芯片门槛。不可否认英伟达的InfiniBand确实有优势。目前很多AI集群都部署了InfiniBand网络,这是因为其低延迟、拥塞控制机制等特性。

尽管InfiniBand在AI训练集群中很受欢迎,但AI推理服务器通常通过以太网与主网络互连。随着推理能力成为AI工作负载的更大一部分,大多数AI推理服务器都将通过以太网连接。可预见的是越来越多的基于以太网的生态部署的出现在一定程度上是为了响应云厂商从训练侧向推理侧转移的需求。

以太网交换机市场的增速需求

据IDC统计,2023年全球交换机行业市场规模达到3698.6亿元,同比增长18.5%,且预计未来5年的增速稳定在5%左右,预计2028年规模将达到4373.0亿元。随着大模型的广泛应用和网络技术的不断进步,交换机在算力互联、数据传输方面的价值将进一步提升,促进数据中心交换机市场空间持续增长。交换机市场展现出了蓬勃的增长态势和快速的技术迭代。

就在近期博通的业绩会上该公司强调以太网占据AI算力集群主力,表示当前最大的8个AI算力集群中有7个采用博通以太网方案,预计明年所有的大规模GPU算力集群均会采用以太网方案,并将今年网络业务营收指引上修至同比增长40%。

博通的强势业绩以及热烈的市场反应,体现以太网或将在未来训推一体趋势下更受云厂商等青睐,并充分受益 AI 集群部署,刷新市场对IB&以太网之争认知。

相关机构预计从2025年底或2026年开始,以太网标准的增强将解决AI集群扩展问题。从那时起,以太网将在AI训练集群中获得更多应用,并将成为InfiniBand的有力竞争者。

全面拥抱以太网,更开放的生态

人工智能和高性能计算工作负载给网络带来了新的挑战,例如需要更高的规模、更高的带宽密度、多路径、对拥塞的快速反应以及各单独流的进展之间的相互依赖性(其中尾延迟是关键指标)。

超以太网联盟 (Ultra Ethernet Consortium,UEC) 由 AMD、Arista、Broadcom、Cisco、Eviden、HPE、Intel、Meta 和 Microsoft 等行业领导者组成,旨在寻求通过“全行业合作”,构建一个完整的基于以太网的通信堆栈架构。超以太联盟旨在提高网络吞吐量、降低延迟,增强网络的可靠性和稳定性,既保持以太网的成本效益和普及性,又保持超级计算互连所需的性能。

奇异摩尔也在近期加入了UEC 超以太网联盟,赋能生态系统联合创新,共同改造并增强网络设备端对AI和HPC大规模部署的灵活性,从而进一步提升以太网的性能。

英伟达黄仁勋此前在业绩发布会上坦言Spectrum-X为英伟达网络技术开辟一个全新的市场,使以太网数据中心能够适应大规模的人工智能,公司预计Spectrum-X将在一年内跃升为价值数十亿美元的产品线。英伟达也采取了以太网与InfiniBand并行的经营策略,以争取更多的市场份额。

另一巨头AMD全面拥抱“开放”理念,服务器采用标准化设计,可以兼容任何客户的集群。在网络方面,内部互联的Infinity Fabric协议将开放给合作的交换机厂商与战略伙伴。同时,在跨服务器的显卡连接上,AMD旗帜鲜明地指出“Ethernet is the answer”,以太网成为AMD用于构建集群的协议。

国内智算中心生态全面推进以太网建设

国内中国移动牵头“全调度以太网(GSE)推进计划”,基于逐包的以太网转发和全局调度机制,突破传统无损以太性能瓶颈,中国移动于2024年开展GSE中试,加速GSE关键技术和产业成熟,为标准开放的新型智算互联贡献中国方案。

GSE 面向无损、高带宽、超低时延等高性能网络需求业务场景,兼容以太网生态链,通过采用全调度转发机制、基于 PKTC 的负载均衡技术、基于 DGSQ 的全调度技术、精细的反压机制、无感知自愈机制、集中管理及分布式控制等技术,实现低时延、无阻塞、高带宽的新型智算中心网络。

近日,在天津举行的“2024晶上系统生态大会”上,中国工程院院士孙凝晖公布了中国首个高通量以太网联盟的最新进展。该联盟由阿里云和中国科学院计算技术研究所联合发起,目前已有北京大学、平头哥、盛科、腾讯、字节跳动、曙光等40余家单位率先加入。高通量以太网联盟将在今年9月发布国内首个高通量以太网协议1.0,提出面向智算场景的网络方案解决方案,同时首次完整提出了针对集合通信的在网计算解决方案。

促进以太网生态,奇异摩尔在行动

奇异摩尔的一系列产品解决方案是全面基于Chiplet &RDMA技术,包括为AI网络提供的面向高带宽域南向网络的NDSA-G2G以及面向服务器集群通信北向网络NDSA-SNIC产品系列;

南向网络GPU/NPU互联通信

NDSA-G2G提供复用以太网基础设施,基于RoCE RDMA技术的800G高速芯粒/芯片,旨在实现高性能GPU/NPU间高带宽域的互联(TB级)。

北向网络服务器集群间通信

NDSA-SNIC智能网卡同样基于RoCE RDMA技术,拥抱以太网基础设施,以800G带宽的高性能,助力AI智算网络实现服务器集群间的高速互联。

热潮汹涌的人工智能科技正持续对云数据中心、边缘计算等领域带来一代又一代的变革。以太网技术的崛起预示着它将逐步取代InfiniBand,成为支撑AI技术服务千行百业的主流选择。奇异摩尔正在通过加入国内外chiplet&以太网标准组织、联合产业链上下游生态合作、从而共同打造一个更开放,更包容的AI网络生态。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分