【中国,江西婺源,2024年3月29日】2024 开放数据中心委员会(以下简称ODCC)春季全会在江西婺源顺利召开,全会由ODCC副主席李洁博士主持。全会期间,华为联合中国信通院云大所数据中心团队发布《华为星河AI数据中心网络测试报告》(以下简称“测试报告”)。
测试报告显示,华为星河AI数据中心网络实现了计算与网络统一管控,在AI训练时支持多任务并行,大幅提升网络性能。华为星河AI数据中心网络通过了“算力强基行动”测评,并荣获“算力强基行动”测评证书。
随着AI技术的发展,我们从ChatGPT的文本生成时代进入了Sora的视频生成时代。这一进步不仅标志着AI大模型能力的持续提升,也意味着全球对算力的需求在不断上升。预计到2030年,AI算力的需求将增长500倍。AI训练的本质为分布式计算,严重依赖网络实现千卡万卡乃至十万卡的协同,随着AI算力需求的持续升级,对AI网络也提出了更高的要求。
为此,华为推出星河AI数据中心网络,基于智能远程RDMA(直接存储器访问)、网络级负载均衡NSLB等能力,实现转发零丢包、98%超高吞吐,全面释放AI时代高算力。
在本次测试中,华为星河AI数据中心网络在网络功能、网络性能、网络可靠性和智能运维方面均表现优异:
网络功能方面:
在打流、端口时延和二三层转发测试中,华为星河AI数据中心网络通过CPU保护、端口状态震荡防护和CRC错包自动防护等能力,实现端口故障可以自动识别恢复;
网络性能方面:
启动网络级负载均衡(NSLB)功能后,在hccl allreduce 集群通信测试中,算法带宽性能显著提升;在llama2大模型测试中,平均网络吞吐量达到98%,AI训练效率显著提升;
网络可靠性方面:
通过使用数字平面快速恢复功能(DPFR),双向流切换时间可缩短至微秒级;
智能运维方面:
分析器可以查看无损网络的丢包、时延的五元组信息,对交换机流量、PFC计数、队列缓存和端口input和output包数进行检测,并基于Fabric、设备和设备接口维度,查看无损队列指标变化。
华为星河AI数据中心网络已经广泛应用于政府、金融、制造、OTT、教育等多个行业。未来,华为将继续携手业界伙伴开放合作,深入探索各行各业的应用需求,持续推进数据中心网络领域技术创新,助力AI产业高速发展,为产业发展创造更大价值。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !