中科驭数分析DPU在云原生网络与智算网络中的实际应用

驭数科技 2024-08-02 2486

描述

CCF Chip 2024，精彩不能停！7月21日下午，中科驭数在第二届中国计算机学会（CCF）芯片大会的“驭数专属时刻”仍在继续，驭数组织承办“DPU技术趋势和应用——DPU在云原生与智算网络中的探索与实践”专题论坛，业内DPU专家们将讨论焦点锁定在了DPU在云原生网络与智算网络中的实际应用，深入探讨了如何利用DPU技术解决计算系统级问题，进一步推动了DPU技术与产业应用的深度融合。

论坛主席中科院计算所研究员李晓维在开场致辞中表示，DPU在网络、计算、安全、数据中心智能化等方面展现了关键作用，可以满足国家建设新质生产力的需求。李老师指出，在国家战略和产业发展双重需求的驱动下，DPU正迎来发展的黄金时期，需深化产学研合作，共同把握机遇，应对挑战，加速推进DPU产业化进程。

论坛主席、中科驭数高级副总裁、CTO卢文岩表示，中科驭数长期致力于推动DPU技术的创新与发展，过去四年来，我们已连续举办了五届DPU技术论坛，从最初的底层芯片技术探讨，到软件生态的构建，再到上层应用的拓展，论坛主题层层递进，稳扎稳打，希望推动产业界构建探讨一套全面、坚实、领先的DPU技术体系。今天，我们对DPU在云和智算场景的系统级解决方案展开探讨，相信DPU会在未来的算力网络中发挥越来越大的作用！

中国联通网络通信首席专家曹畅在《DPU赋能算网融合》演讲中阐述，算、存、运一体协同的算力基础设施才能发挥算力最大价值，更好应对AI发展需求。从NIC发展而来的DPU，作为新型主力芯片，正在以“专有芯片做专有任务”的加速，从更加底层的数据处理及应用部署方式满足智算等互联业务对“算存网管效安”的需求，提升数据流转的性能和安全，赋能算网融合的千场万景。

比如在通信云场景中，DPU作为一种新型计算技术，可支持网络、存储、安全、管理等基础设施层功能卸载，提升通信云的资源利用率和安全性等。在算力服务场景中，算力服务网关调用DPU资源实现算力能力卸载与数据高效转发，提高算力服务的效率、使用体验与安全性。而针对智算网络中的RDMA RoCE问题，DPU也能提供优化解决方案，克服TCP/IP协议限制，促进数据高效传输。

最后，曹老师也提到，DPU的关键创新在于其以数据为中心的新型计算理念，并可以此为契机拉动产业链上下游形成对算网架构、标准等技术体系的共识。

中科驭数应用研发部总经理陈岩在《高性能网络技术创新的基座——数据网络应用开发平台 DNDP》分享中表示，“算中有网, 网中有算”的算网融合是算力架构的演进趋势。中科驭数针对当前数据网络开发的痛点，如平台封闭性、基础组件缺乏及复杂场景验证难题，创新研发了“开物”数据网络应用开发平台。

该平台集可编程性与丰富组件于一体，支持软硬件二次开发，配备充足硬件资源与调试工具链，实现即插即用，简化复杂场景搭建。开物平台的软硬结合架构，包含可定制的DPU核心组件与HADOS软件平台，大幅缩短算法至系统部署周期，赋能存储网络、网络安全、在网计算、基础网络、云原生网络、智算网络等多领域创新，共同推进网络技术与算法研究的前沿发展。

中国移动研究院基础网络所数据中心网络研究室主任王瑞雪在《基于DPU的全调度以太网技术思考与实践》演讲中指出，AI大模型以GPU集群分布式训练为基础，带来大量节点间通信消耗，网络成为AI算力“瓶颈”，以网强算对我国更加重要。网络设备能力决定GPU集群组网规模、网络性能决定GPU集群算力加速比、网络可用性决定GPU集群稳定性。因此，智算中心以太网技术路线基本形成产业共识，技术生态和产业规模是核心竞争力。

中国移动原创性提出全调度以太网（GSE）技术体系，革新以太网转发机制，基于三大核心机制转变，实现高精度负载均衡、网络层原生无损及低延迟。GSE为适应不同场景的需求，分为纯网络方案和端网协同两条技术路线。端网协同方案是高性能智算中心网络技术趋势。在这个场景中，DPU作为网络中GSP节点，需具备高效乱序报文处理与主动拥塞控制能力，进一步优化网络规模与性能表现。

天翼云资深研发专家邹明在《创新算力架构——天翼云紫金DPU推动算力普惠》演讲中指出，随着互联网和AI业务的发展，传统以CPU为核心的算力架构，面临着虚拟化组件消耗服务器资源多，虚拟化业务性能差，新的算力平台适配推广困难的诸多挑战。为了应对这些挑战，天翼云作为云服务国家队，积极应对算力挑战，自研紫金DPU，通过虚拟化组件卸载、多种业务硬件加速以及自研三栈合一高性能网络协议，使得天翼云紫金DPU具备高性能、高可靠性、低成本、简单易用的特点，在天翼云公有云、混合云和集团各项业务上云环境中大规模部署，业务场景涵盖通算、超算、智算等各项场景。

特别是在智能计算场景中，引入紫金DPU后，不仅简化了VPC（虚拟私有云）和对象存储的VxLAN接入过程，还提供了RoCE并行文件存储的直接接入能力，极大减少了网络层面的冗余，降低了整体网络架构的复杂性，进而提高了数据中心的效率和响应速度。在传统通算场景中，通过紫金DPU的卸载以及软硬融合的硬件加速技术，实实现虚拟化“零”损耗，业务性能大幅提升，并且支持一云多芯，加速了国产化算力的推广。

北京邮电大学汪硕在《可编程网络探索与实践》演讲中表示，为应对人工智能和高性能计算给网络来的挑战，构建新质生产力所需的大带宽、低延迟、高可靠网络，定制化协议与可编程设备已成为未来网络重要的演进趋势，并初步形成覆盖芯片、硬件、软件的完整生态。网络通信与安全紫金山实验室联合北京邮电大学通过发布全球首个骨干网可编程操作系统UniNOS，支持运营商级骨干网络功能，成功适配主流异构交换芯片，已在长三角区域骨干网白盒平面与紫金山无损数据中心应用，支撑PB级算力数据中心的大规模落地验证。新型可编程的确定性网络可解决网络利用效率、丢包等问题，推动互联网从“尽力而为”到“确保所需”技术体系变革，能够满足数据传输、算力互联等典型场景的网络需求。

中科驭数产品运营部副总经理李冬在《基于DPU的高性能云底座探索与实践》演讲中表示，云计算技术体系中，DPU是串联网络、存储、安全、虚拟化、裸金属、容器等各个业务系统的核心要素。也是基于这一理解，IaaS on DPU(IoD)技术的核心思想，即将云计算基础设施组件下沉至DPU。

中科驭数基于IoD技术打造的解决方案统一管理计算和裸金属节点，确保99%的服务器资源直接服务于客户业务，大幅提升基础设施的业务处理能力，单机吞吐量提升4倍，存储IOPS性能提升1.5倍。针对券商低时延服务，中科驭数通过DPU卸载代理流量，采用用户态协议栈绕过内核，自主研发服务网格快路径，将业务访问时延降至130微秒，降低70%，并减少服务器CPU消耗达20%。在公有云裸金属服务中，中科驭数的解决方案实现了分钟级交付，无需PXE或操作系统安装，通过集中式代理模式替代边车模式，减少了资源消耗，提升了配置的简易性和灵活性。

展望未来，IoD技术将持续演进，涵盖可观测性、轻量级虚拟化、软硬协同拥塞控制等多个领域，引领DPU技术在云计算领域的广泛应用。

在圆桌论坛环节，主持人卢文岩、天翼云邹明、北京邮电大学汪硕、中科驭数陈岩、李冬五位嘉宾深入探讨了DPU技术在云和智算领域的革新与挑战。专家们也一致认为，DPU的本质在于性能加速，通过算力卸载提升效率，从产业来看，当前DPU技术路线和产业应用趋势也正逐渐清晰，在智算场景和云原生场景中将大有可为。

专家们也提到，标准化、生态建设与人才培养，仍是DPU技术广泛应用前必须跨越的障碍。DPU的标准化有助于降低使用门槛，促进技术的广泛接受；生态系统的健全则能吸引更多的开发者与合作伙伴，加速技术迭代与创新；而高校与产业界的深度融合，则能培养出更多具备实战经验的人才，为DPU技术的长远发展奠定坚实基础。开物K-Machine的发布，正是中科驭数迈向教育领域的第一步，旨在培养DPU专业人才，让开发者能够以低的成本、更短的开发周期进行网络研究与算法开发。

DPU技术已逐步走向成熟、迈向应用大规模推广的阶段，行业同仁们更多地开始讨论DPU在数据中心和云计算环境中解决系统层面的“大问题”。中科驭数非常荣幸成为这一进程的参与者和推动者，我们将继续致力于底层技术的创新与生态建设，推动DPU技术在算力基础设施中的普及和深化应用。邀您共同见证DPU在云计算和智算领域的深远影响。

打开APP阅读更多精彩内容