INT技术之IPT:实现端到端网络路径质量的精准监控

描述

智算网络对端到端路径质量监控的需求

随着人工智能大模型训练和分布式计算等高性能应用的快速发展,智算网络对端到端路径质量的监控需求日益提升。为了应对网络拥塞和时延异常等问题,INT(In-band Network Telemetry,带内网络遥测)作为新一代网络质量分析技术,已从学术研究走向真实网络环境。其中,作为INT技术的标准方案之一,IPT(In-band Path Telemetry,带内路径遥测)在路径质量监控中发挥着重要作用。

什么是IPT技术?

IPT的核心定义

IPT,全称 In-band Path Telemetry,即带内路径遥测。它侧重于实现端到端路径质量的精准监控,通过在遥测域内配置入口节点、出口节点及传输节点,利用探针标记(Probe Marker)唯一标识遥测域,沿原始路径生成探测数据包并收集各节点统计信息,最终为网络运维提供整网路径质量的多维分析能力。


工作流程拆解

IPT的工作流程主要分为以下三个核心环节:

入口节点(Ingress Node):

  • 识别与采样: 通过采样或配置DSCP指定队列的方式识别目标流量,而非复制所有流量。
  • 复制与截断: 克隆原始业务报文,保留二三层首部,并截断Payload,以降低遥测流量对带宽的占用。
  • 探测包封装: 在UDP或TCP首部前16字节后插入IPT专有字段(包括探针标记、Base Header及入口节点统计信息)。

传输节点(Transit Node):

  • 精准识别: 通过识别特定偏移位置的Probe Marker,迅速判定该报文为IPT探测包。
  • 元数据追加: 将本节点的路径统计信息(如设备ID、入/出接口、实时时延等)追加到IPT数据段中,且不改变原有结构。
  • 硬件透传: 确保探测包的累加处理不会引入额外的计算开销。

出口节点(Egress Node):

  • 信息补全: 写入最后一个节点的元数据,形成完整的端到端路径视图。
  • 探测包终结和封装: 将探测包从业务转发路径中摘除,将收集到的全路径元数据封装并发送给采集器(Collector)。

IPT与BDC/HDC的技术对比

为了更好地选择适合的遥测方案,我们可以通过以下表格对比BDC、HDC以及IPT技术的差异:

方案BDCHDCIPT
触发条件队列缓冲区超限丢包队列转发时延达到设定阈值
遥测信息队列占用情况转发时延队列深度及转发时延
采样机制概率捕获、微突发捕获概率捕获、微突发捕获概率捕获
聚焦场景缓冲区丢包捕获与报告无损网络中的高延迟异常诊断大型网络中的问题定位,全路径质量监控

IPT的突出优势与典型应用场景

核心方案优势

与直接修改业务报文的“染色”方式相比,基于采样和生成独立探测报文的遥测方式具有以下优势:

  • 业务零干扰: 由于修改的是复制出的探测包,即便遥测逻辑出现异常,也不会影响原始业务数据的完整传输。
  • 低带宽压力: 通过截断Payload,极大地减小了探测包的体积,非常适合大规模部署。
  • 部署灵活性: 在不支持IPT的设备上,探测包可作为普通报文透传;而在支持节点上则进行数据采集,具备良好的兼容性。

典型应用场景:大模型训练集群的路径优化

在超千卡GPU集群的大模型训练场景中,集群依赖高性能网络实现节点间数据同步,路径质量直接影响训练效率。IPT技术可在以下环节优化路径性能:

端到端路径时延监控: IPT通过探测数据包采集各节点转发时延,结合入口到出口的总时延,可快速定位高延迟节点,辅助调整流量转发路径。

IPT

队列状态动态感知: IPT探测数据包携带队列占用大小及QP等信息,帮助运维人员快速识别拥塞队列,调整缓冲区分配策略。

IPT

随着智算网络的发展,星融元基于INT技术的IPT方案为端到端网络路径质量提供了强有力的监控手段。了解并应用IPT技术能够帮助企业构建高效、稳定的网络基础设施。
想要了解更多关于智算网络优化的前沿信息? 欢迎持续关注基于IPT技术的EasyRoCE小工具的最新发布!

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分