TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

中兴文档 2023-06-07 2751

描述

某资源池TECS上报BFD会话DOWN告警和网络流量异常告警，持续时间1秒至6分钟不等，如下图所示。

ECC

同时，业务侧反馈，该资源池ISBG业务网元产生指标下降等异常情况，但已快速恢复。

物理节点上的虚拟机都通过业务面网卡和节点外部通信。当流量异常时，业务网卡上会出现很多丢弃包。

系统周期性采样网卡所有收发包总数和丢弃包总数，当丢弃包占比数连续多次超过门限时，则上报告警；当连续几个采样周期的丢弃包占比数低于门限，则恢复告警。

虚拟网络上出现较重负荷，造成报文丢弃率超过给定阈值。短暂的指标下降异常情况可能和资源相关，例如CPU、内存、网络资源不足，或者硬盘的IO读写过低导致延迟。

问题分析过程如下：

1.观察到异常情况后，对告警内容展开分析。执行dvs show-dpifstats命令，找到对应端口，查看overrun和drop统计项是否在增加。

2.观察到计算服务器NFV-D-XXX-SRV-15业务bond子接口均上报了网络流量异常告警，分析可能是端口丢包。

3.登录服务器查看DVS日志，端口丢包量在告警时刻出现上涨，如下图所示。

ECC

4.登录云平台查看NFV-D-XXX-SRV-15承载业务，该主机承载虚机四台，其中包含ISBG的XX-isbg-OMPIPI_2_L虚机。分析可能为DVS接收丢包影响到虚机业务。

5.分析SAR日志，确认DVS的绑定核在故障期间出现被占用的情况，时间点与网卡丢包基本一致，认定为DVS核占用导致的DVS物理网卡丢包，如下图所示。

ECC

6.分析BMC黑盒子日志，该时间（+8）在日志中大量出现ECC内存错误，内存定位DIMM11，如下图所示。

ECC

7.ECC错包出现的时间点与DVS网卡丢包时间点（DVS转发核被占用的时间点）基本重合，认定内存ECC错误与DVS的丢包强相关。

8.根据日志显示报错信息，ECC内存错误触发的内存槽位为DIMM11。

1.登录管理页面，选择“云平台管理-计算-实例”，选中该台主机上虚拟机，完成主机上虚拟机的热迁移，如下图所示。

ECC

2.完成迁移后，选择“云平台管理-计算-主机”，选中这台主机，设置维护模式，如下图所示。

ECC

3.下电服务器完成内存更换，完成后上电，取消“设置维护模式”。

4.迁移回虚拟机，测试正常。

5.内存ECC错误为此次异常故障根因。内存ECC错误影响DVS转发分析：

l在内存ECC错误故障期间，现有的BIOS配置会为每一个内存ECC错误产生一个SMI中断。

如果产生ECC风暴，那么影响CPU处理性能。

SMI中断在内核感知为NMI，不受内核控制，从硬件描述看内核是无法屏蔽此类中断的。内存ECC默认不告警。

SMI中断导致CPU进入SMM模式，该模式对于OS是透明的。

因此SMI中断是硬件和固件（BIOS）共同处理的，其对于CPU处理流程的打断，对OS而言是不可感知的，不会出现在OS的统计项里面。

只有当BIOS处理SMI后，并以SCI中断通知OS时，OS才能感知到SCI中断。但是BIOS是否触发SCI中断也不是OS所能控制的。

总之，SMI中断对于DVS处理核的影响是硬件和固件的行为。

审核编辑：刘清

打开APP阅读更多精彩内容