AIGC蝴蝶效应下的网络和硬件趋势

描述

来源:SDNLAB 

2023年,以ChatGPT为代表的AIGC技术正在蓬勃发展,并在文本生成、代码开发等各个领域取得了重大进展,重塑了行业格局。德勤报告预测,到2027年,在AIGC推动下的人工智能基础设施服务市场将增至130-160亿美元。

AIGC 利用自然语言处理 (NLP) 和机器学习 (ML) 技术来完成跨文本、图像、音频和视频的内容生成,这一成就得益于强大的计算能力、存储和高速通信的支持。

01赋能算力的关键在于网络

AI的显著进步离不开数据、算法和计算能力这三大支柱。尤其是对于大规模、复杂的AIGC模型,强大的算力基础设施至关重要。以ChatGPT为例,它在训练过程中使用了10000个V100 GPU,形成一个高带宽集群,单次训练消耗约3640 PF-day的算力。

然而,影响GPU利用率的最重要因素是网络,特别是在由数万个GPU组成的计算集群中,需要大量的带宽来实现高效的数据交换。缺乏强大的网络支持可能会导致 GPU 利用率降低、训练时间延长、成本增加以及用户体验下降。因此,网络尤为重要。

从本质上讲,如果没有高效的组网,大模型的应用将会受到严重制约。

ChatGPT

为了支持AIGC的运行,高性能的网络基础设施必不可少。为了满足AI集群计算的需求,业界提出了三种主要的网络解决方案:InfiniBand、RDMA和Fabric switch。

其中,RDMA是一种新的通信机制,可以显著提高数据吞吐量,同时减少延迟。它主要基于 RoCE v2 协议,通过以太网实现。

Fabric switch解决方案适用于小规模AI计算集群部署,它采用特定的芯片和技术来满足高性能网络的需求,但它面临着可扩展性有限、设备功耗高、故障域大等挑战。 

InfiniBand网络具有极高的带宽、无拥塞、低延迟等特点,虽然成本较高,但被ChatGPT、GPT-4等模型所采用。凭借 InfiniBand 和 GPU,NVIDIA 已在 AI 基础设施领域建立了主导地位,占据了约 80% 的市场份额。以配备 NVIDIA DGX H100 系统的 NVIDIA DGX SuperPOD 为例,它由 31 到 127 个 DGX H100 系统组成,总共 1016 个 NVIDIA Hopper GPU。这种配置提供了出色的AI计算性能。

ChatGPT

02AIGC 网络和计算能力驱动下核心产品的趋势

服务器:AI算力的核心

AIGC的快速发展推动了对高性能AI服务器的需求。全球AI服务器市场正在经历大幅增长,IDC数据预计到2025年市场规模将达到317.9亿美元,年复合增长率为19%。

AI服务器与传统服务器的不同之处在于其硬件配置,高性能GPU或TPU加速器使得这些服务器能够在短时间内处理大规模数据集,加速深度学习和机器学习。这也导致对更大内存、更快存储和更多核心处理器的需求不断增加。此外,PCIe设备的需求也随之上升,以支持更多的加速器卡和高速网络接口。

不断升级的高性能需求:AI工作负载通常需要大量的计算能力,从而推动了对高性能服务器的需求,包括配备高性能 GPU、TPU 和快速存储的服务器。

特定硬件要求:AI服务器需要特定的硬件配置,例如GPU加速器、PCIe插槽和高速网络接口,以满足AI算法的运行需求。

创新的服务器设计:为了满足大规模AI模型的需求,诸如 NVIDIA DGX GH200 之类的新型服务器设计应运而生,可提供更高的吞吐量和可扩展性。

交换机:400G/800G需求迫切

交换机作为数据中心计算网络的中枢,正在逐渐演进以满足不断增长的高速数据传输需求。在为人工智能和数据中心的快速增长提供必要的支持和解决方案方面,交换机发挥着关键作用。

高速网络需求:AI工作负载产生了大量的数据传输需求,这也推动了对网络交换机从10G/40G过渡到400G/800G的需求。

减少带宽损失:AI服务器和数据中心需要更高性能的交换机来减少数据传输过程中的带宽损耗,以及更快的数据传输速度,以确保实时处理和响应。因此对交换机性能的要求更加苛刻,这也催生了更复杂的交换机设计和PCB要求。

数据中心扩展:随着AI的快速发展,数据中心的规模和复杂性也在不断增加。数据中心的扩展需要更多的交换机,以满足连接和通信的需求。根据Dell'Oro的报告,到2027年,速度为400Gbps及以上的交换机将占据近70%的市场份额。

光模块:强劲增长和新兴技术趋势

随着人工智能和数据中心的快速扩张,光模块市场正在经历强劲的增长。这些光模块是数据传输中不可或缺的组件,通常与交换机或网卡协同工作,实现高速数据传输。由于AI工作负载的不断增加,数据中心需要更快、更可靠的连接,这推动了对高性能光模块的需求。

此外,随着网络速度不断提高,传统的可插拔光模块可能会受到物理极限的制约,这促使了新型光模块解决方案(如共封装光学器件 (CPO) )的涌现,以满足高速数据传输中对更高带宽和更小型设备的需求。

AIGC 推动的其他产品趋势

除了前面提到的服务器、交换机和光模块之外,整个网络基础设施需要更广泛的产品,它们的增长也受到AI驱动解决方案扩展的影响,包括:

电源管理:电源开关、电源滤波器和稳压器等组件,确保整个网络稳定可靠的配电。

控制和管理:服务器内的管理芯片、时钟芯片和BIOS芯片等组件,对于监督和协调网络操作至关重要。

热管理:在AI驱动的系统中,特别是在数据中心环境中,CPU散热器和风扇等产品对于有效可靠的热管理至关重要。

03AIGC 的持续连锁反应

AIGC的到来引发了一场技术革命,对硬件、软件和服务领域都带来了巨大的影响。

从硬件角度来看,AIGC的崛起对高性能服务器、网络交换机和光模块的需求产生了持续的增长。特别是在高性能计算和数据中心领域,对更强大的硬件资源的渴望推动了创新的硬件设计趋势。服务器需要更大内存、更多GPU加速器和更快的存储来满足日益复杂的AI工作负载。此外,网络交换机需要更高的吞吐量和更快的数据传输速度,以支持大规模的数据处理需求。光模块的需求也随之上升,以实现更高速度和更密集的数据传输。

从软件和服务来说,仅限于传统的机器学习和深度学习,AIGC技术正在渗透到各个领域,如文本生成、代码开发、诗歌创作等。这为软件开发和云计算服务提供了新的机遇,推动了创新和多样化。

AIGC的蝴蝶效应正在持续蔓延,并有望继续下去,这使我们需要在技术变革和市场变化中保持灵活应对和创新思维。了解和适应AIGC技术的快速演进将成为各行各业的关键,而这也将为未来的技术发展和应用带来更多的可能性和机遇。

审核编辑:汤梓红

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分