互联网的雏形ARPANET诞生时,网络规模极小,节点间路径固定。工程师手动配置每一条路由表,如同在纸质地图上标注每条街道的通行规则。这种“静态路由”虽简单可靠,却完全依赖人工维护——任何链路中断或新增节点都需要重新配置,无法适应动态变化的网络环境。这种模式在小规模网络中勉强可用,但随着节点数量增加,其脆弱性暴露无遗。
局限的本质:网络被视为静态拓扑,缺乏对动态变化的感知与响应能力。
1989年,OSPF(开放最短路径优先)和BGP(边界网关协议)的发布,标志着网络进入动态自治时代。动态路由协议通过两种核心能力彻底改变了网络:
技术突破:网络从“静态地图”升级为“实时导航系统”,但流量调度仍依赖固定策略(如ECMP均分流量),无法应对复杂场景。
为追求更灵活的流量控制,软件定义网络(SDN)横空出世。其核心理念是将控制平面集中化,由中央控制器全局调度流量。理论上,SDN能实现精细化的流量工程,例如为关键业务预留带宽、动态规避拥塞链路。
但在实现过程中遇到瓶颈。感知延迟:控制器依赖秒级更新的网络状态,面对AI流量的毫秒级波动,决策严重滞后。协调成本:集中式架构难以应对大规模分布式网络的复杂性,控制器成为性能瓶颈。
SDN未能取代动态路由协议,但启发了后续技术对“集中与分布”平衡的探索。
为弥补传统路由的灵活性不足,技术社区提出“协议与控制协同”方案:
进步与局限:这些技术提升了流量调度的灵活性,但仍依赖预定义策略,无法实时响应突发流量。例如,ECMP均分流量时,一条“大象流”仍可能压垮某条路径,而控制器无法即时干预。
3. 故障自愈:从“分钟级”到“毫秒级”
传统网络中,链路故障需数秒至分钟才能恢复;而INT-based Routing通过实时感知与分布式决策,可在10ms内切换备用路径,业务完全无感。
以一个典型的Spine-Leaf拓扑的数据中心网络为例。

如上图所示,Server0和Server1分别连接到两个Leaf交换机,这一对Leaf交换机间存在4个路径。
在Server侧看不到这4个路径,因此智能网卡无法实现流量调度。
在Leaf交换机上,如果仅依赖OSPF,能看到4条静态的等价路径,但它们的负载实际上是不同的。
如果借助INT的感知能力,Leaf1交换机上现在就能够知道去往Server0有4条时延不相等的路径。这样Leaf1交换将能够选择更优的策略将流量分配到这4条路径上,如最小时延路径或者WCMP(Weighted Cost Multiple Path),从而实现完全自适应的路由,让网络流量和网络负载完全匹配,最大化网络的吞吐量、最小化尾部延迟,最大化网络利用率。
INT-Based Routing可以与Packet Spray和flowlet结合,实现逐包级别或逐flowlet级别的流量调度。借助OSPF和BGP的拓扑发现能力,它能够在任意拓扑的网络上应用。
相比传统的ECMP技术,INT-Based Routing可将网络利用率提升到90%以上,网络吞吐量提升20~45%, P99 tail latency 降低50%以上,从而显著提高AI训练的作业完成时间(JCT)。
OSPF擅长在链路级别感知网络拓扑,BGP则擅长在AS级别感知网络拓扑,INT通过逐跳嵌入元数据,彻底解决了原来单个交换机无法动态感知整个路径上流量和负载的问题。它们的结合释放出强大的流量调度能力。
AI的发展告诉我们,当我们做更多更有效率的分布式计算,就可以改变世界。网络本身又何尝不是如此。当我们在交换机中对网络拓扑、网络流量和设备负载进行实时分布式计算后,我们就能大幅改善网络的性能。
Smart Switch的基本构成是“可编程的ASIC数据平面 + DPU化的控制平面 + 控制平面到控制平面的高速数据通道”。

关于CX864E-N:51.2T 800G AI智算交换机软硬件系统设计全揭秘
Smart Switch 是“网络智能化”的结构性演进。它不再依赖主机上的智能网卡、也不依赖集中控制器,而是将 “实时感知 + 智能调度” 嵌入网络最核心的物理单元Switch中,使网络成为分布式计算平台,具备自感知、自调度能力,从而自适应处理毫秒级的流量变化,是网络应对AI时代的关键变革。
在此基础上,INT-Based Routing应运而生,推动网络控制面进一步走向智能化,是路由技术的最新范式。可以说,INT-Based Routing 是为AI而生的智能路由!
全部0条评论
快来发表一下你的评论吧 !