【中国,上海,2024年5月16日】中国电信上海公司(以下简称“上海电信”)在上海衡山花园酒店举办的“智云上海发布暨2024中国电信上海公司科技节”上,携手华为展示400GE IP弹性无损智算广域网络创新解决方案,旨在通过400GE大容量承载、RDMA(Remote Direct Memory Access)无损传输以及任务式弹性调度等智算网络技术为千行百业提供高弹性、高吞吐、高可靠的入算网络服务。
400GE IP弹性无损智算广域网络方案
国内算力市场蓬勃发展,算力规模每年几乎要翻一倍,中国电信在临港信息园区建设国产万卡算力集群,并以出租的方式为企业提供算力服务。企业需要将自己的算力数据通过运营商的智算广域网送到智算中心进行模型训练或推理。当前算力输送面临两种典型的场景:一是百T级大数据集中训练,例如基因测序的模型训练平均日产数据量达到12TB每天,如果通过传统专线模式将数据送到智算中心进行模型训练,企业和研究机构会面临“低带宽等不起,高带宽用不起”的窘境。另外一种场景是数据拉远训练,部分企业由于要保障数据安全性,要求从研究机构到算力中心传输过程中数据不在园区外落盘。基于RDMA的拉远训练对时延、丢包十分敏感,因此对网络承载能力提出了更高的诉求。上海电信携手华为打造端到端400GE IP弹性无损智算广域网络,为企业提供海量样本高效入算、存算分离拉远、数据快递弹性IP等多种算网一体化服务能力。
400GE弹性算网,一跳入多算:智算广域网络端到端部署400GE大带宽接口技术,将网络运力提升4倍。通过在企业侧部署智能AI-CPE,实现10Mbps~100Gbps IP弹性伸缩专线,满足企业一条专线同时访问智算、超算以及通算等多种异构算力资源池的需求。
长距RDMA无损传输:基于RDMA的拉远训练对网络时延、丢包、抖动等网络传输指标十分敏感,万分之一丢包会导致训练效率直接下降50%。智算广域网络具备基于智算大象流智能识别和深度负载均衡能力,使网络吞吐率逼近400GE线路带宽,支持城域100KM覆盖范围的RDMA远距离、高吞吐无损传输。
时延可保障:56.25%的网络层攻击持续时间不超过5分钟,可见“瞬时泛洪”依然是网络层攻击的一大特点,瞬时泛洪攻击挑战防御系统的自动化程度和运维团队的响应速度。
AI激发了网络创新,网络服务算力并联接算力。入算、算间、推理这些不同的算力业务为网络注入了新的业务模式,也对IP网络提出了更高的承载要求。华为将和上海电信持续携手创新,利用端到端切片、无损以太、长距离RDMA、网络数字地图等技术,构建高效无损智算网络,让千行百业像使用自来水一样便捷地使用算力服务,助力上海建设成为具有全球影响力的智能算力创新及应用示范区。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !