华为联合IEEE Kazakhstan Subsection共同发布HPC无损以太和AI Fabric网络技术白皮书

描述

华为

 

 

[阿拉木图,2023年6月5日] 在2023华为中东中亚技术嘉年华期间,华为成功举办数通创新峰会。来自哈萨克斯坦、乌兹别克斯坦、沙特、阿联酋、卡塔尔、巴基斯坦等多个国家的480多位客户和伙伴参与本次峰会,共同讨论行业数字化发展和网络技术创新。会上,华为联合IEEE Kazakhstan Subsection、阿联酋高级国家研究和教育网络Ankabut面向全球共同发布了《HPC无损以太和AI Fabric网络技术白皮书》(以下简称“白皮书”)。白皮书阐述了无损以太数据中心网络在HPC和AI领域广泛的应用前景,并从网络架构、关键技术、商业价值、最佳实践等维度阐述了最新的技术研究与商用实践成果。

 

华为

 华为联合IEEE Kazakhstan Subsection、Ankabut
发布《HPC无损以太和AI Fabric网络技术白皮书》

 

白皮书指出,无损以太网络技术具有智能RDMA、网络级负载均衡等特征,可实现零丢包转发和90%的超高吞吐率,形成性能、兼容性、成本效益和灵活性等全方面优势,已成为高性能计算的必然选择。同时全球各国积极颁发政策支持HPC和AI发展,未来,无损以太网络将在全球数字化中发挥关键作用。

 

白皮书中首先介绍了当前高性能计算网络拓扑架构包括CLOS、MultiRail、直连拓扑。其中,CLOS是一个多级架构,在每一级,每个交换单元都和下一级的所有交换单元相连接,可以做到严格的无阻塞、可重构、可扩展;MultiRail通过框式设备的信元交换,实现平面内的绝对负载均衡;直连拓扑可实现超大规模组网,具备低成本、端到端通信跳数少的特点。

 

其次介绍了软件架构从网络自身的优化、网络与应用系统的融合优化两个方面来提升HPC&AI应用性能。其中网络自身优化通过以下三个方面实现整网吞吐最高、时延最低的目标:

 

  • 第一是流控技术,通过识别环形缓存依赖并破除其产生的必要条件,从而解决PFC死锁的问题,提高网络可靠性;

 

  • 第二是拥塞控制,通过AI算法动态调节ECN门限,以获得最大带宽与最小时延;

 

  • 第三是流量调度,通过NSLB技术解决网络负载不均的问题,实现90%高吞吐,以达成AI训练效率提升20%的结果。

 

网络与应用系统的融合优化,则由HPC网络通过在网计算实现运算优化,即通过MPI通信的在网聚合运算特性,网络设备参与计算过程,减少任务完成时间。

 

 

HPC无损以太和AI Fabric网络技术白皮书

 

   

当前整个社会发展的大趋势是HPC&AI For Everything,无损以太网络将持续为实现万物互联、万网互通筑基架梁;为千行百业提供算力服务,打造数字经济时代的坚实高性能计算底座;为先进数字产业繁荣发展贡献力量,助力全球数字化转型。

 

华为

华为 点击下载《HPC无损以太和AI Fabric网络技术白皮书》!


原文标题:华为联合IEEE Kazakhstan Subsection共同发布HPC无损以太和AI Fabric网络技术白皮书

文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。


打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分