故障现象
远端模块流量没有按照预期转发,比如中心交换机收不到远端模块下挂终端转发过来的流量,或者远端模块下挂终端收不到流量。
处理步骤
步骤 1 根据流量转发路径,分别查看对应路径上的下行口、上行口、互联口状态和报文计数,确定故障点。
-
例如流量从中心交换机转至远端模块,先检查中心交换机与远端模块互连口的端口状态与报文在出入方向的计数。例如,互联口是Eth-Trunk 1。 display interface Eth-Trunk 1
Eth-Trunk2 current state : UP
Line protocol current state : UP
Description:
Switch Port, Link-type : trunk(configured),
PVID : 1, Hash arithmetic : Accordingto SIP-XOR-DIP,Maximal BW: 2G, Current BW: 2G, The Maximum Frame Length is9216
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is500b-0990-4444
Current system time: 2022-04-14 1830
Last 10 seconds input rate 904 bits/sec, 0 packets/sec
Last 10 seconds output rate 576 bits/sec, 0 packets/sec
Input: 214 packets, 45417 bytes
Unicast: 0, Multicast: 184
Broadcast: 30, Jumbo: 0
Discard: 0, Pause: 0
Frames: 0
Total Error: 0
CRC: 0, Giants: 0
Runts: 0, DropEvents: 0
Alignments: 0, Symbols: 0
Ignoreds: 0
Output: 168588 packets, 24951240 bytes
Unicast: 168453, Multicast: 67
Broadcast: 68, Jumbo: 0
Discard: 0, Pause: 0
Total Error: 0
Collisions: 0, Late Collisions: 0
Deferreds: 0
Input bandwidth utilization: 0%
Output bandwidth utilization: 0%
--------------------------------------------------
PortName Status Weight
--------------------------------------------------
GigabitEthernet0/0/26 UP 1
GigabitEthernet0/0/27 UP 1
--------------------------------------------------
The Number of Ports in Trunk : 2
The Number of UP Ports in Trunk : 2
-
检查远端模块上行口与下行口端口状态与计数,以此确认故障点。如下,远端模块上行口是port 5、port 6,下行口是port 3。
# 查看远端模块接口的简要信息,确认上下行端口。 displayremote-unit port brief
ESN :219801176801XXXXXXXX
Name :runame-012345678901234567890000
Device type :S5731-L4T2ST-RUA
Connect interface :Eth-Trunk1
---------------------------------------------------
Interface PHY Negotiation Duplex Mode Speed(Mbps) NeighborInterface
---------------------------------------------------
GE1 Down Enable Full Copper 1000 -
GE2 Down Enable Full Copper 1000 -
GE3 Up Enable Full Copper 1000 -
GE4 Down Enable Full Copper 1000 -
GE5 Up Enable Full Copper 1000 GE0/0/26
GE6 Up Enable Full Fiber 1000 GE0/0/27
---------------------------------------------------
# 查看远端模块端口的流量统计,如下为port 5查询,port 6和port 3查询方法一样。 display remote-unit port 5 statistics connect-interface Eth-Trunk 1
ESN :219801176801XXXXXXXX
Name :runame-012345678901234567890000
Device type :S5731-L4T2ST-RUA
Connect interface :Eth-Trunk1
----------------------------------------------------
GE5 current state : UP
Speed: 1000, Duplex: Full, Negotiation: Enable, Mode: Copper, Congestion: No
Input rate 0 bits/sec, 0 packets/sec
Output rate 0 bits/sec, 0 packets/sec
Input: 0 packets, 0 bytes
Unicast: 0, Multicast: 0
Broadcast: 0, Jumbo: 0
Discard: 0, Pause: 0
Frames: 0
Total Error: 0
CRC: 0, Giants: 0
Runts: 0, DropEvents: 0
Alignments: 0, Symbols: 0
Ignoreds: 0
Output : 168571 packets, 24951014 bytes
Unicast: 168453, Multicast: 81
Broadcast: 37, Jumbo: 0
Discard: 0, Pause: 0
Total Error: 0
Collisions: 0, Late Collisions: 0
Deferreds: 0
Input bandwidth utilization threshold: 80.00%
Output bandwidth utilizationthreshold: 80.00%
Last 60 seconds input utility rate :0.00%
Last 60 seconds output utility rate:0.00%
-----------------------------------------
根据回显确认远端模块流量异常端口,比如中心交换机互联口的入方向流量要等于远端模块上行口出方向的流量,如果不相等,根据查询结果回显的流量统计,初步判断报文在哪里丢了,可确认故障端口。
步骤 2 在中心交换机上查看FMEA相关告警,是否存在远端模块PHY芯片故障等。
RUMNG/2/RuPhyStatAbnormal:OID [oid] Remote unit PHY chip is abnormal. (RemoteUnitEsn=[OCTET]),表示远端模块PHY芯片异常,具体告警信息请参见:hwRuPhyStatAbnormal。-
如果异常的PHY芯片对应的接口状态是UP的,设备会自动复位,复位后查看接口能否正常收发报文。如果不能正常收发报文,说明是PHY芯片故障,请更换该设备。# 查看远端模块接口的简要信息,确认端口的PHY状态。如下,port3连接终端,PHY的状态是UP,如果设备上存在这个告警:hwRuPhyStatAbnormal,则设备会自动复位,复位后查看接口能否正常收发报文。 display remote-unit port brief
ESN :219801176801XXXXXXXX
Name :runame-012345678901234567890000
Device type :S5731-L4T2ST-RUA
Connect interface :Eth-Trunk1
--------------------------------------------------------------------------------------------
Interface PHY Negotiation Duplex Mode Speed(Mbps) NeighborInterface
--------------------------------------------------------------------------------------------
GE1 Down Enable Full Copper 1000 -
GE2 Down Enable Full Copper 1000 -
GE3 Up Enable Full Copper 1000 -
GE4 Down Enable Full Copper 1000 -
GE5 Up Enable Full Copper 1000 GE0/0/26
GE6 Up Enable Full Fiber 1000 GE0/0/27
--------------------------------------------------------------------------------------------
-
如果异常的PHY芯片对应的接口状态是LINK DOWN的,设备不会自动复位。如果用户不使用该接口,可以不处理。如果用户要使用该接口,可执行reboot命令复位远端模块,复位后查看接口能否正常收发报文。
步骤 3 远端模块下行口进行内部环回检查、重启,尝试恢复、排查。-
远端模块端口内部环回检测。# 比如:配置远端模块0的2号端口内部环回检查,可检测远端模块内部转发芯片是否工作正常。loopbacktest internal port下发时,提示Error: Failed to set loopback test, error message:*** 说明内部环回检查失败,端口存在问题,需要收集信息定位。Info: Setting the internal loopback test on the port of the remote unit succeeded.表示内部环回检成功,内部转发芯片工作正常。 system-view
[HUAWEI] remote-unit 0
[HUAWEI-remote-unit-0] loopbacktestinternal port 2
Info: This operation will take several seconds. Pleasewait.................
Info: Setting the internal loopback test on the port of the remote unitsucceeded.
-
复位远端模块端口。# 如果远端模块0的1号端口状态或计数有故障,可复位远端模块1号端口尝试恢复。
[HUAWEI-remote-unit-0] restart port 1
[HUAWEI-remote-unit-0] quit
步骤 4 检查上行口链接是否正确。-
远端模块的上行接口默认加入Eth-Trunk,检查上行口是否连接同一中心交换机。如果连接到两个中心交换机会导致流量转发异常。
-
远端模块双上行到中心交换机,检查中心交换机对应的两个下行口是否加入同一个Eth-Trunk。如果未加入到同一个Eth-Trunk组,则会有链路异常的告警,并且Error-Down端口。
对于中心交换机未组建Eth-Trunk接口、两条链路对接不同中心交换机等异常双链路场景,中心交换机会自动检测并触发告警和ERRORDOWN。告警含义见hwRuMngRuLinkAbnormal。# 如果端口已经被Error-Down,可以执行restart命令重启端口,或者配置Error-Down状态的接口的自动恢复时间。执行error-down auto-recovery cause remote-unit-link interval命令配置远端模块和中心交换机之间链路异常被Error-Down的自动恢复时间。执行error-down auto-recovery cause remote-unit-misconfig interval命令配置远端模块和中心交换机之间连线不正确被Error-Down的自动恢复时间。
[HUAWEI] error-down auto-recovery cause remote-unit-link interval 30
[HUAWEI] error-down auto-recovery cause remote-unit-misconfig interval 30
步骤 5 请收集日志信息和配置信息,并联系技术支持人员。设备诊断信息可以通过display diagnostic-information命令收集。
原理描述
远端模块设备不支持部署VLAN,接收到的报文默认加一层透传TAG,再根据VLAN tag里的VLAN ID在MAC地址表里查找对应的出接口,报文在出端口将透传TAG剥离。
远端模块报文转发示意图
远端模块各下行端口之间默认不隔离,下挂终端的未知单播、广播流量会广播到所有其它下行接口和上行接口。学习MAC后,按照学到的MAC地址做已知单播转发。远端模块被中心交换机纳管后,可以通过中心交换机下发配置,开启远端模块各下行接口之间的隔离,此时下挂终端的未知单播、广播流量只会转发到上行接口。
配置隔离后,下挂终端的三层流量互通,需要在网关配置ARP代理。