电子说
以“发展新质生产力,计算引领未来”为主题的第二十一届中国计算机大会(CNCC2024)在横店圆明新园盛大开幕,逾万名计算机行业翘楚参会。本届大会邀请到了17位国内院士,800余位国内外顶尖学者、企业技术精英,带来特邀报告、大会论坛、138场专题论坛等活动。10月25日下午,作为2024 CNCC技术论坛的重要组成部分,中科驭数成功举办第六届DPU技术论坛,本次论坛聚焦“DPU在智算网络、云原生网络等场景的技术趋势和应用实践”,汇聚了众多行业内的顶级专家与学者,共同探讨DPU技术的最新进展及其在高速网络、高速存储、人工智能、云计算等数据计算密集型场景的应用潜力。
论坛主席、中国科学院计算技术研究所研究员李晓维在开场致辞中表示,随着云计算、人工智能等领域的快速发展,对于高效数据处理的需求日益增长,而DPU作为新一代的数据处理单元,正逐渐成为解决这些挑战的关键技术之一。DPU能够显著提升数据处理速度,在算力、存力、运力等多个方面同时扮演着非常重要的角色,其在高性能云数据中心中的应用落地与推广,对于数据中心乃至数字经济的发展至关重要。

▲论坛主席李晓维开场致词
中国电子云云产品线研发副总裁刘年超发表了《SmartNIC/DPU在AI云原生环境中应用的实践和思考》的主题演讲,分享了SmartNIC/DPU发展背景及历程、电子云SmartNIC/DPU研究和实践、SmartNIC/DPU现状和未来的思考。他指出,SmartNIC、DPU、IPU抑或是CIPU,虽然在命名方式方面缺乏统一的标准,其本质是以CPU为中心的体系架构向以数据为中心的体系架构转变的大势所趋。新一代 DPU/IPU 设备的共同特点是它们采用易于编程的多核 CPU、先进的网络接口以及一组强大的网络、存储和安全加速引擎,可以进行编程以执行多个软件定义的硬件加速功能。
中国电子云目前也在网络架构和软硬件方面积极创新尝试,自研基于云原生的雨燕网络架构,结合国产自主可控DPU方案,实现裸金属、虚拟机、容器统共享网络和存储资源池,提升虚拟机网络包传输率达到200万PPS,提升集群CPU利用率至70%以上,达到了良好降本增效目标。目前,中科驭数FLEXFLOW-2200T、CONFLUX-2200E以及CONFLUX-2200P产品已与中国电子云的CClinux操作系统及基于云原生分布式云平台完成深度适配。

▲中国电子云云产品线研发副总裁刘年超发表演讲
中科驭数高级副总裁张宇在《基于DPU的高性能云底座》演讲中谈及,云是算力供给的最普遍形式。当下高性能云计算基础设施建设的主要挑战包括规模化落地、异构算力融合、资源池化。DPU作为支撑云基础设施的核心要素,其价值在于串联网络、存储、安全、虚拟化、裸金属和容器等业务系统。
中科驭数基于IaaS on DPU (IoD) 技术,打造了一套统一管理计算和裸金属节点的解决方案,实现了99%的服务器资源直接服务于客户业务,单机吞吐量提升4倍,存储IOPS性能提升1.5倍。特别是在券商低时延服务中,通过DPU卸载代理流量和用户态协议栈,将业务访问时延降至130微秒,降低70%,并减少服务器CPU消耗达20%。此外,中科驭数的解决方案还实现了公有云裸金属服务的分钟级交付,无需PXE或操作系统安装,显著提升了配置的简易性和灵活性。

▲中科驭数高级副总裁张宇发表演讲
青云科技智算解决方案总监傅帅在《借助DPU实现算力的灵活调度与管理》演讲中指出,算力基础设施是AI发展的基石,青云科技在智算中心建设中,利用DPU优化大型异构算力中心的运营效率,打通算力形态、网络安全、用户管理、计量计费等关键环节,为智算中心的高效运行提供有力支持。最新升级的青云AI智算产品和服务,能够灵活交付私有云、边缘云、分布式云及算力云服务,增强国产计算支持、GPU切分、裸金属及DPU等能力。特别是通过DPU在裸金属服务中的应用,青云科技实现了容器调度、节点管理、监控服务等功能的优化,显著提升了裸金属性能和整体系统的可靠性。

▲青云科技智算解决方案总监傅帅发表演讲
紫金山实验室研究员时定兵在《可编程网络探索与实践》演讲中指出,面对AI大模型时代的挑战,构建高性能算力底座需要计算、网络、存储和系统的协同工作。开放网络设备将是未来网络的核心组成部分,对网络相关功能与流量的控制具有重要意义。
紫金山实验室自研的白盒交换机在智算中心、算间网络和算网协同中展现了重要的应用价值,有效支持了多种复杂场景的需求。在智算中心三网分离方案中,白盒交换机支持超宽128*400G带宽,实现无损网络技术(PFC/ECN/DCQCN),并通过集中流量调度(TELB)和多级负载分担技术,提升链路带宽利用率和流量均衡,确保大规模超宽无损智算中心网络的高效运行。在算间网络中,通过SRv6协议承载、FlexE、DetNet构建“子切片”,实现数据中心间确定性承载网络,提供业务级差分服务和细粒度的SLA保障。在算网协同方案中,白盒交换机作为算力网关的核心设备,具备算网感知、算力路由和算网传输保障能力,实现算网流量的最佳调度与传输,支持基于SRv6、FlexE的确定性网络算力数据传输。

▲紫金山实验室研究员时定兵发表演讲
中国移动研究院项目经理李婕妤虽因故未能到场,但仍然向我们共享了关于中国移动在网络架构创新上的重要内容。面对AI大模型训练带来的巨大通信消耗,中国移动原创提出了GSE技术体系,通过革新以太网转发机制,实现了高精度负载均衡、网络层原生无损及低延迟等三大核心机制转变。中国移动现网百卡级中试验证结果显示,相较于传统的RoCE方案,GSE技术在主流模型训练性能上平均提升了30%以上,尤其在单设备或单链路故障场景下,性能提升更是超过了40%。
李婕妤表示,智算中心网络技术是依托服务器网卡、交换机、DPU芯片、转发芯片等的一条庞大产业链,技术体系复杂,依赖上下游协同创新。

在圆桌论坛环节,中科驭数高级副总裁张宇、中科院计算所研究员李晓维、中国电子云云产品线研发副总裁刘年超以及紫金山实验室研究员时定兵围绕DPU技术的发展与应用展开了深入讨论。大家一致认为,DPU市场前景广阔,DPU技术的发展伴随着云计算和底层基础设施的快速迭代,尤其是在过去四年中,随着对DPU认知的提升和应用探索的深入,DPU迎来了政策支持和市场需求增长的机遇。
对于DPU在智算中心的高性能网络建设,嘉宾们建议加强自主研发,推动标准化进程,提升网络的灵活性和可靠性。在DPU规模应用落地方面,行业应注重技术创新和生态建设,加强产业链上下游的合作,建立更多的合作平台,促进资源共享和技术交流。未来3到5年,随着5G、物联网、边缘计算等技术的不断成熟,算力基础设施将朝着智能化、绿色化、高效化的方向发展,DPU将在其中发挥重要作用。

▲四位嘉宾深入讨论DPU技术的发展与应用趋势
本次论坛的成功举办,不仅加深了产学研各界对DPU应用价值的理解,也为推动构建全面、坚实、领先的DPU技术体系奠定了基础。我们相信,只有通过广泛的交流合作,才能激发创新的火花,推动技术的突破和发展。中科驭数将继续致力于DPU产品的研发和应用推广,深化与高校、科研机构及企业的合作,共同攻克技术难题,推动标准制定,构建完善的DPU生态系统。同时不断创新,为客户提供更高效、更可靠的算力解决方案。期待携手产业伙伴共同探索新技术、新模式,共同推动我国算力基础设施迈向新的高度。

下次再会!
审核编辑 黄宇
全部0条评论
快来发表一下你的评论吧 !