国产千卡GPU集群完成大模型训练测试，极具高兼容性和稳定性

Carol Li 2024-06-11 3330

描述

电子发烧友网报道（文/李弯弯）随着人工智能技术的快速发展，对于计算能力的需求日益增长。特别是在大模型训练方面，对算力的需求更是呈现指数级增长。传统的单卡计算已经无法满足大模型训练的需求，因此，采用多卡集群的方式成为了必然的选择。

2023年底，摩尔线程推出首个全国产千卡千亿模型训练平台“摩尔线程KUAE智算中心”。摩尔线程相关负责人此前谈到，百卡或更小规模都是实验性的，千卡才是大集群的基本单元，只有千卡及以上才能满足一些基础模型的算力需求。

国产千卡集群完成大模型训练测试

日前，摩尔线程官方宣布，联合羽人科技，已成功实现了夸娥（KUAE）千卡智算集群与羽人系列模型解决方案的训练兼容适配，高效完成了70亿参数羽人大语言模型YuRen-7b的训练测试。

测试结果显示，训练效率达到预期，夸娥千卡智算集群展现出了高度的兼容性和稳定性。未来，羽人科技的零代码训练平台将迁移到摩尔线程夸娥千卡智算集群。

在今年5月27日，摩尔线程联合无问芯穹宣布，双方在近日正式完成基于国产全功能GPU千卡集群的3B规模大模型实训。该模型名为“MT-infini-3B”，在摩尔线程夸娥（KUAE）千卡智算集群与无问芯穹AIStudio PaaS平台上完成了高效稳定的训练。

MT-infini-3B模型训练总用时13.2天，经过精度调试，实现全程稳定训练不中断，集群训练稳定性达到100%，千卡训练和单机相比扩展效率超过90%。

5月29日，摩尔线程又与国内领先的数据智能服务商滴普科技共同宣布，摩尔线程“夸娥”（KUAE）千卡智算集群与滴普企业大模型Deepexi v1.0已完成训练、推理适配，获得产品兼容互认证明。

基于摩尔线程夸娥千卡智算集群，滴普科技成功完成了LLaMA2 700亿参数大语言模型的预训练测试。训练时长共计77小时，全程无故障连续运行，集群训练稳定性达到100%，训练效率和兼容性均达到预期。

可以看到，摩尔线程全国产夸娥千卡智算集群在大模型训练上展现出足够的实力。摩尔线程夸娥方案基于全功能MTT S4000 GPU，提供软硬一体化的全栈解决方案，具备模型覆盖、推理加速、CUDA兼容、断点续训、分布式训练、集群可靠性等8大核心能力。

MTT S4000是摩尔线程推出的大模型智算加速卡，采用第三代MUSA内核，单卡支持48GB显存容量和768GB/s的显存带宽，FP16算力为100TFLOPS。借助摩尔线程自研开发工具，MTT S4000计算卡可以充分利用现有CUDA软件生态，实现CUDA代码零成本迁移到MUSA平台。

大模型训练用千卡集群搭建需要关注的重点

可以看到，国产千卡集群已经取得实质性突破，在性能上能够达到国际先进水平，在应用上，已经有多个大模型实训案例。同时，国产企业也在积极构建和完善生态系统。

事实上，用于大模型训练的千卡集群的搭建并不容易，需要注意多方面的事情。如基础设施搭建方面，首先要考虑硬件的选择，需要选择高性能的GPU或TPU作为核心计算单元，才能够提供必要的计算能力和加速训练过程。其次是网络互联，构建能够支持万卡级别高速互联的智算集群，才能确保各个计算单元之间的数据传输效率和稳定性。还有分布式存储，需要配置分布式存储系统，满足大模型训练过程中大规模数据的存储和访问需求。

除了GPU的选择，网络互联也是千卡集群建设需要关注的重点。大模型训练千卡集群互联要求高，这样能够确保集群的高效、稳定和可靠运行。

具体来看，首先需要高带宽与与低时延，大规模GPU集群中，模型训练对卡间互联的带宽和时延提出更高要求，特别是在万亿参数量模型中，网络节点可能由百卡组建的“超节点”构成，单次通信数据量虽小但通信频繁，因此需要高带宽支持以实现快速数据传输。低时延同样重要，因为在大模型训练中，任何延迟都可能影响训练效率。

其次需要高效互联拓扑，随着智算中心向千卡万卡级别的全互联方向演进，传统的直连拓扑结构不再适用。集群需要采用更高效、更先进的互联拓扑结构，如全向智感互联（OISA）设计方案，以突破大规模卡间互联的技术瓶颈。

再者还需要支持大规模扩展，千卡集群的互联方案需要支持从单机多卡到多机多卡、从单卡到千卡集群的无缝扩展。这要求互联方案具有良好的可扩展性，能够随着集群规模的增长而灵活调整。

另外还要考虑稳定性和可靠性、安全性、兼容性等。大模型训练千卡集群的互联方案有多种，如RDMA（远程直接内存访问）网络，RDMA允许计算机之间的内存直接访问，无需操作系统和CPU的干预，从而大大降低了通信延迟，提高了数据传输速率。在千卡集群中，RDMA网络可以确保节点间的高效数据传输，支持大规模的分布式训练任务。

NVLink高速互联，NVLink是NVIDIA开发的一种GPU间高速互联技术，专为GPU到GPU的通信而设计。它提供了比PCIe更高的带宽和更低的延迟，适用于多GPU系统内的数据共享和通信。在千卡集群中，可以使用NVLink连接GPU服务器，实现节点内部GPU间的高效互联。

高性能交换机与网络拓扑，使用高性能交换机，如InfiniBand交换机或以太网交换机，来构建集群的网络拓扑。网络拓扑设计需要考虑集群的规模和通信需求，以确保所有节点之间的低延迟和高带宽连接。可能的网络拓扑包括全连接、部分连接或基于交换机的层次化结构。

还有多路径数据传输、全向智感互联（OISA）设计方案等，OISA是一个新兴的设计方案，旨在解决大规模卡间互联的技术瓶颈。OISA通过优化网络协议和拓扑结构，实现了更高的带宽、更低的延迟和更好的扩展性。该方案适用于需要高效通信的大规模GPU集群。

写在最后

千卡集群主要是用于处理大规模、高复杂度的计算任务，特别是在人工智能（AI）、深度学习、大模型训练等领域。而此前这种集群的建设都依赖国外的GPU，而如今，可以看到，全国产的千卡集群正在不断进步和完善，在当下国际GPU产品对中国限售的背景下，这对于国内人工智能，尤其是大模型的长远发展具有深远意义。

打开APP阅读更多精彩内容