故障现象
某运营商反馈在定制网业务中,UPF为BM CAAS形态,UPF业务交换机为MCLAG组网。业务配置完成不久后出现两个告警:
1. UPF Rosng协议栈xgei-2/0/4/2.7频繁出现BFD会话闪断现象。
2. 第二台UPF业务交换机的BGP Loopback地址(192.168.100.18/FD00100:: 18)到UPF Rosng协议栈的BGP出现闪断。
因此需要排查原因。
故障分析
面对此类问题,需要从故障现象中归纳总结几个关键点:
一、由“业务配置完成后不久出现两个告警”可以得出,告警大概率与现场新加的定制网业务配置有强相关。
二、出现的告警为Rosng与UPF业务交换机,可进一步缩小定界范围。
因此排查过程如下:
1. 分析UPF告警:通过EM告警采集,可以看到存在“BFD会话down”告警,且告警特征为告警发生频繁、可自动恢复,Rosng端口为xgei-2/0/X/2.7,如下图所示。
2. 此外,还存在“BGP邻居down”告警,告警可自动恢复,故障IP=192.168.100.18,如下图所示。
3. 根据以上告警信息检查UPF网元业务配置,发现IP=192.168.100.18地址为UPF的N6侧BGP邻居地址(邻居为业务交换机),如下图所示。
4. UPF告警所在的Rosng端口均为VPN为yghjb的端口,此VPN也是本次定制网新添加配置。VLAN ID为1061,VLAN网关在UPF业务交换机,因此在Rosng进行Ping测试,目的IP为VLAN1061网关,源地址取Rosng逻辑接口地址(192.168.30.1~4)。但Ping测试结果显示均能Ping通(告警同时未复现);Rosng和交换机侧VLAN1061相关的ND6 Cache结果均为正常,如下图所示。
5. 检查两台UPF业务交换机配置,发现两台业务交换机未配置anycast mac地址,如下图所示。
6. 在交换机为MCLAG组网中,若VLAN网关的anycast mac不配置,将会导致NA单播报文无法命中三层mac,NA上送失败后,交换机的MAC地址学习异常。
当Rosng模块接口IP无法学习到VLAN1061网关时,将导致VLAN1061链路不通,而VLAN1061链路不通将会使Rosng所有以VLAN1061为BFD检测的路由进行失效处理,配置如下图所示。
当此默认路由失效使,Rosng与业务交换机的BGP邻居则不通,这也解释了产生“BGP邻居down”告警的原因。
故障处理
1. 在UPF两台业务交换机的VLAN1061网关,执行如下命令:
interface mac-address 0000.5e00.2101 anycast
2. 命令执行成功后,BFD会话down的闪断告警便不再出现,问题解决。
全部0条评论
快来发表一下你的评论吧 !