随着大模型的兴起,为了应对新的AI应用,AI或算力数据中心建设如火如荼。
无论是作为聊天机器人,推荐系统还是在各个领域中实现流程自动化,比如无人驾驶、人脸识别;AI技术都有望提升并加速众多企业和公共设施的运营,甚至改变人们的生活方式。
然而,AI网络或算力网络作为一个概念,常常让人感到困惑且被误解,AI和算力需要网络么?
在本文中,我们将探讨关于AI网络的五个基本要点,以及随着AI的发展,网络所面临的独特挑战。
GPU是AI的核心
简单来说,AI的核心是图形处理单元(GPU)或神经处理单元(NPU)。
过去,我们通常认为中央处理单元(CPU)是计算机的核心。但GPU的优势在于,它在执行数学计算特别是矩阵计算方面非常出色,从某种角度来说,与人脑神经元更接近。
CPU时代的数据中心网络处理的大多是供人阅读的文字或多媒体,典型的就是网站的浏览、文件传输以及观看视频,数据中心往往能够同时支持数亿人的同时在线及高速的视频码流传输。
而在构建大语言模型或深度学习模型时,需要让GPU进行“训练”,这涉及到解决可能包含数十亿参数的矩阵和梯度运算。GPU的计算非常的快,整个“训练”过程异常严苛,不允许有任何的错误发生,一旦发生错误或延迟,整个“训练”的周期就会被拉长。这样的运算量,以及对无损和低延时的要求,对于传统的数据中心而言,突然就变得捉襟见肘了。
AI训练任务由多GPU协同完成
大语言模型在训练的参数和模型复杂度上有非常明显的提升,完成这些计算必须让多达上千个GPU共同处理训练任务,即便如此,训练或微调大模型也可能需要数周甚至数月的时间。
一般的多GPU互联的架构是将一组GPU服务器放置在机架中,并通过机架顶部的交换机相互连接。机架与机架通过CLOS网络结构将它们全部连接起来。随着解决问题复杂性的提升,对GPU的需求也会增加,有些情况下单个数据中心的电力不足以支持的时候,甚至需要跨数据中心连接通信来完成更大型的训练任务。
AI集群是一台超级计算机
在构建AI集群时,不仅仅要将GPU相互连接,更需要把它作为一个系统,解决很多错误和优化的问题。正因为AI集群的规模不断的上升,其中任何单点错误会导致整体训练任务的失败或效率低下,整个系统的组成部件比如模块、线缆、交换机、网卡、服务器、存储甚至电源,冷却系统等,都会影响整个系统的执行和维护。AI集群已经慢慢由一个组网变成为一台超级计算机,越来越多的工作将会围绕在部件之间的协同而不仅是部件内部的单点优化展开。
网络成为了训练效率的关键瓶颈
在去年秋天的开放计算项目(OCP)全球峰会上,Marvell Technology的Loi Nguyen指出,网络成为了AI部署的新瓶颈。GPU在解决计算问题或处理训练负载方面非常有效。然而,进行并行计算的GPU在完成本身处理的信息之外需要获取其他GPU处理完成的信息,彼此之间需要相互通信和同步。
如果一个GPU无法获取所需信息,或者同步需要较长时间,其他所有GPU都必须等待,直到协作任务完成。在技术层面上,由网络拥塞导致的数据包延迟或丢失可能会引发数据包重传,显著增加任务完成时间(JCT)。
这意味着价值数百万甚至数千万美元的GPU长时间处于闲置状态,从而导致AI产品的上市时间延迟并影响公司的财务成果。
测试对于AI网络至关重要
为了确保AI集群的高效运行,需要网络对GPU协同作业可能存在的拥塞和错误有提前的感知以及良好的应对。
这要求对网络处理AI负载的性能进行详尽的测试和基准评估。但这并非易事,因为GPU协同作业的负载区别于传统网络的流量负载,微突发、大象流、低熵是比较典型的特征。
因此,在测试AI网络时,我们会面临诸多挑战:
• GPU短缺,无法复刻生产网络环境或无法长时间复现问题。
• 在生产系统上进行测试可能会降低系统的处理能力。
• 系统内的部件不能提供足够的日志及调试能力,无法准确定位问题。
• 此外,获取GPU之间集合通信更细节的信息,比如 Queue-Pair 的信息是一个挑战。
为了应对这些挑战,可以首先在实验室环境中对建议配置的一个子集或小的组网进行测试,对关键参数进行基准测试,比如任务完成时间(JCT)、AI集群可达到的带宽,以及这些参数与网络利用率和交换机缓存消耗的比较。
这种基准测试有助于找到GPU/工作负载与网络设计/参数设置之间的平衡。当计算架构师和网络工程师对结果满意时,他们可以将这些设置应用于生产环境,并测量新的结果。
结论
为了充分利用AI算力,必须对AI网络的设备和基础设施进行优化。
企业和学术界正在提出更多好的架构和算法来优化AI系统的各个部件及部件间协同,以应对未来更多AI应用给大型网络带来的挑战。
测试对AI系统非常关键,只有通过确定可重复的测试,行业才能实现从探索性实验到可交付的迭代,这会是优化AI这台超级计算机的基础。
关于是德科技
是德科技(NYSE:KEYS)启迪并赋能创新者,助力他们将改变世界的技术带入生活。作为一家标准普尔 500 指数公司,我们提供先进的设计、仿真和测试解决方案,旨在帮助工程师在整个产品生命周期中更快地完成开发和部署,同时控制好风险。我们的客户遍及全球通信、工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手,加速创新,创造一个安全互联的世界。
全部0条评论
快来发表一下你的评论吧 !