故障现象
某地ZXR10 5960X MC-LAG组网,软件版本V6.00.00.70B18,现场升级版本,先升级MC-LAG主设备。主设备重启时,MC-LAG备设备业务中断大约3分钟。
MC-LAG双机二层组网,smartgroup127作为peerlink端口,smartgroup128作为keepalive端口。现场网络配置如下:

故障分析
Keepalive 联动检测配置缺失,联动检测未生效导致备设备退避。
故障处理
1. 对业务中断到业务恢复过程告警进行分析。
MC-LAG主设备升级执行reload重启后,备设备11:25上报smartgroup127(peerlink)和smartgroup128(keepalive)物理端口及MC-LAG成员端口(业务)口物理down告警,同时1144设备上报了退避告警。
1137备设备退避状态发生变化,变为master主设备。
1140开始MC-LAG备设备成员口逐步up(注:主设备还未启动完成,peerlink和keepalive物理端口还未起来),此时业务恢复。
物理端口down 告警:

MC-LAG 退避告警:

退避状态变化,备设备变为master 主设备:

MC-LAG 成员端口up 告警:

2. 业务中断分析:
从告警初步判断主设备重启导致备设备退避,MC-LAG成员端口down,业务中断3分钟,然后MC-LAG成员端口up,业务恢复。主设备升级后出现以上现象存在疑点:
MC-LAG 双机,重启一台设备理论上不会影响另一台设备业务,现场却出现备设备业务中断,检查配置发现LACP全局下配置了keepalive联动检测,但SAMGR下并未做track 关联配置,相当于keepalive和物理端口联动检测未生效。当主设备重启时peerlink端口down,keepalive虽然物理端口down但keepalive协议检测未关联,认为还是up的(keepalive报文发送周期5 s,超时时间180 s),因此MC-LAG备设备才会出现退避及物理端口down的现象。
3. 补充增加SAMGR配置,验证再次重启主设备则不会再出现备设备退避及业务中断影响。

故障总结
1. MC-LAG升级前一定要检查主备设备配置,参考开局指导规范实施。
2. MC-LAG升级理论上先升级主或先升级备均不会影响另外一台,但实施时建议升级备设备,备设备升级完成后再调整MC-LAG优先级。主备角色重新选举后再次升级备设备,升级完成后调整优先级恢复配置,要求始终保持每次升级均为备设备,这样会更安全。
全部0条评论
快来发表一下你的评论吧 !