某企业的5G行业项目无人集卡远程驾驶视频回传业务受到影响,具体表现为从终端上传到采控平台的监控视频存在花屏问题,采控平台对终端的操控受到影响,产生偶发性卡顿,视频花屏示例如下图所示。企业园区的视频回传和卡车操控业务均受到影响。
无人集卡视频业务组网如下图所示。
上行方向:终端摄像头 → 视频网关 → CPE → 基站 → 防火墙 → 承载 → UPF业务交换机 → 下沉UPF → UPF业务交换机 → 企业防火墙 → 企业服务器控制台
针对视频花屏一类的问题,大部分情况下都是由于网络报文丢包和报文乱序引起的。这是因为视频码流的传输是建立在传输层协议的基础上,即TCP协议和UDP协议。而视频监控场景大多采用UDP面向不可靠连接协议。 因此排查方向为检查网络中的UDP报文,排查思路有以下四点:
问题定位:判断网络中是否存在UDP丢包率或乱序率高的问题,定位手段为使用Wireshark工具抓包分析,定位点为企业的视频服务器。
问题定界:若有UDP丢包率或乱序率高的现象,则需要定界丢包或乱序的引入点在哪里。必要时需要进行端到端网络抓包分析,目的是逐步缩小引入丢包或乱序点位的范围,直至抓出问题设备。
问题优化:定位到问题设备进行分析、解决。有可能是多个设备,涉及无线、承载、核心网各专业产品,具体的分析解决过程由问题产品对应的团队负责,目标是使整个端到端网络的丢包率或乱序率降低。
效果验证:网络的丢包率或乱序率降低后,观察花屏问题是否得到改善或解决。
TCP面向连接:当传输中断,发送端是感知的,可以重新建立连接。因此采用TCP传输的优势是不丢包;但劣势是网络不佳的情况下会导致拥塞。常见的场景:观看视频、FTP等。
UDP非面向连接:发送端只管发送数据,接收端是否能收到数据则不在发送端的考虑范围内。因此UDP的优势是数据具有实时性,传输速度更快;劣势是当网络抖动大时,数据会丢失严重,这就是导致视频花屏的常见原因。常见场景:视频监控、直播、视频会议、音视频通话。
问题定位
故障复现期间,在企业服务器端进行Wireshark数据抓包分析。
抓包数据流为UDP流,如下图所示。
UDP流转码为RTP流,经过流统计没有丢包,如下图所示。
但是存在1%乱序,如下图所示。初步分析可能为乱序问题导致的视频花屏。
问题定界
安排端到端7个节点(CPE、基站、承载、防火墙、UPF业务交换机、下沉UPF、企业服务器)进行抓包分析,确认是哪个网元引入的乱序问题,如下图所示。
分析点1:测试PC → CPE抓包分析
分析点2:OME网管平台 → 基站侧DPS、NG口抓包分析
分析点3:测试PC → 传输抓包分析
分析点4:测试PC → 防火墙抓包分析
分析点5:测试PC → UPF业务交换机业务汇聚端口抓包分析
分析点6:测试PC → UPF网元侧抓包分析
分析点7:远端操作PC → 企业服务器侧抓包分析
分析过程
在故障发生的同一时间段内,将各节点的Wireshark数据统计结果进行汇总,初步判定在UPF业务交换机和UPF网元中间引入了乱序,如下图所示。
1.在UPF业务交换机进行数据统计,统计数据如下图所示。
a.GTP包:为基站增加GTP包头,通过承载等网元转发至UPF的报文。 b.UDP包:经UPF处理并转发至企业园区N6的报文(回到交换机的包)。
3.经过UPF业务交换机一进一出的数据统计结果,可以明显看出数据报文在经过了UPF和UPF业务交换机后,有乱序率增加的现象,乱序率由0.01变为0.38%,所以UPF产生问题的可能性最大。
4.在UPF网元进行数据跟踪统计,统计结果如下图所示。
5.根据UPF网元数据统计结果,可以看出在UPF网元侧的几段报文中,确实存在乱序增加的现象。16段抓包结果的乱序率在0.08%~1.48%之间,平均乱序率为0.41%。 6.在企业服务器进行数据统计,如下图所示。
7.根据企业服务器数据统计结果,可以看出企业服务器的几段报文中,确实存在乱序现象,平均乱序率为0.39%。
8.为验证初步分析的结果,需要再次在UPF业务交换机和UPF网元进行抓包对比,如下图所示。
9.经过抓包对比,第二次抓包数据统计的结论与第一次的结论一致,即UPF业务交换机到UPF网元段乱序大量增加。由此初步分析得结论:终端上传视频时,数据包从UPF业务交换机出来至UPF内部,再由UPF转发至UPF业务交换机出现问题,导致了乱序增加。
10.将故障范围收敛为:UPF业务交换机、UPF网元或底层设备,其中UPF故障的可能性最大,后续主要分析方向为UPF。
11.根据抓包结果进行分析,执行以下3项操作,观察是否改善:
a.关闭UPF网元所有的数据跟踪,在UPF业务交换机上再次进行抓包,分析乱序现象是否改善。
结果:无效。
b.调整UPF业务交换机SG 2、3、6、7口(与业务服务器的业务网卡)负荷分担策略为src-dst-ip。在交换机上抓包,分析乱序现象是否相同。
结果:无效。
c.将UPF虚机进行主备倒换,再次交换机抓包,分析乱序现象是否相同。
结果:无效。
12.根据抓包结果再次进行分析,执行以下2项操作,观察是否改善: a.核查现场组网拓扑,检查防火墙分发策略,是否异常。
结果:无异常。
b.UPF所有补丁都没打,需要打上补丁后查看是否有改善。
结果:无效。
13.进一步检查,发现UPF主备倒换没有生效,需要重新倒换。
a.分析交换机聚合组分发是否有问题,需要保留聚合组里面唯一端口,关闭其他端口。
b.根据第一次操作抓取数据分析发现新问题点:UPF除了乱序外,还有更高比例的丢包问题,统计数据如下图所示。 乱序比例:交换前0.04%,经过UPF后乱序率增加至0.46%,增加了近10倍。 丢包比例:交换前0.77%,经过UPF后丢包率增加至1.55%,增加了近1倍,且较乱序比例更大。需要重点解决该问题。
14.对UPF网元进行一键采集内部统计分析,存在上行的计费丢包。对UPF进行信令跟踪发现,现场采用的是N40在线计费,且每次下发约200 MB配额(查看具体配额的消息:Nchf_ConvergedCharging_Update Request),如下图所示。
15.经分析,在用户上线后,UPF会通过SMF向OCS申请配额,当配额用完之后,UPF会重新向OCS进行配额申请。
16.根据现场抓包分析速率大约50 s左右配额会耗尽,耗尽后UPF实时向OCS申请配额。因为具有实时性,从OCS而来的新配额如果未及时送达UPF,则UPF会将缓存报文进行丢包处理,此时极大可能导致视频花屏。
17.综合以上分析,建议将在线计费方式改为离线计费或者不计费方式,查看花屏问题是否解决。
18.SIM计费情况说明如下:
a.在线计费(预付费):需要和OCS交互申请配额,当配额达到阈值后,会重新向OCS申请新的额度,在OCS下发新额度之前,如果配额耗尽,则UPF将会进行丢包。
b.离线计费(后付费):不需要和OCS进行交互,理论上用户可以一直使用流量,但用户下线后,会向计费中心上报流量统计数。
c.针对实时回传的流媒体业务,通常会使用离线计费,因为在线计费需要实时申请配额,如果网络出现延时或者OCS响应不及时,会导致丢包严重,业务中断。
问题处理
1.将SIM卡计费方式由在线计费更改为离线计费,再次在UPF业务交换机进行抓包,抓包结果如图14所示。
结果分析如下:
a.乱序比例:交换机0.02%,经过UPF后乱序率增加至0.12%,增加近5倍,乱序问题还存在。
b.丢包比例:交换机0.34%,经过UPF后丢包率增加至0.38%,仅增11%,较操作前下降明显。
2.与第三方视频厂家沟通,反馈花屏效果已大大改善,基本已经解决原来视频花屏问题,如下图所示。
3.根据前后数据分析,视频花屏问题分析结论如下:
a.视频花屏问题定位为UPF的丢包原因引入,通过更改SIM卡的计费方式,大大降低了UPF的丢包行为,花屏问题基本解决。
b.UPF乱序问题存在,但在当前环境下,乱序问题对现场视频花屏影响很小。
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !