电子说
核心网,是通信网络的大脑,承担着网络全局资源的调度及管理。进入5G时代,核心网肩上的担子更重了,其承载着来自千行百业的多样化业务需求。如何实现5G时代的核心网高效、低成本和高可靠运维,成为了运营商及业界关注的焦点。那5G时代的核心网运维有哪些挑战?又有哪些新变化呢?
5G时代的核心网运维挑战
运维对象规模和复杂性急剧上升——不同于以往4G时代,5G时代由于网络应用深入到多样化的业务场景,网络规模急剧加大。通过切片方式来进行业务的管理,导致了业务也会更加动态和复杂,从而让网络管理难度大幅增加;网络的管理对象也急剧增多,除了传统意义上的运营商的公网,还有各行各业的行业用户专网,如何能够针对不同对象合理化,分域的运维,基于各个行业进行SLA保障,也是非常棘手的一个问题;同时,随着NFV,微服务架构等技术的不断引入,网络实现了分层解耦,按需部署,但同时也带来了运维复杂度的上升,故障的定位定界成为了5G时代运维极大的挑战;2/3/4/5G时代遗留下来多个独立的运维入口,也让原本就复杂的运维工作,变得更加的繁琐,传统烟囱式的运维团队和流程模式也因数据之间相互隔离,流程的非自动化,无法在5G时代继续下去。
人力要求和企业成本的挑战——与4G主要面向消费者市场不同,5G将赋能千行百业,与各行各业的生产效率、业务创新等紧密相关,这要求5G新业务能敏捷上线,业务发布将从原来的几个月缩短到几天,甚至是小时级,还要求运营商提供高SLA的网络来保障企业的生产、业务等流程高效稳定运行,否则可能会给行业带来经济损失,这单靠传统的人工运维模式无法支撑业务及网络的要求。同时,5G时代不仅网络更复杂,业务更多样化,伴随着低时延应用和行业专网兴起,还将有大量MEC边缘节点广泛分布于网络的不同位置,这都将新增大量的上站维护工作量和运维成本,因此,如何最大程度减少Opex,是运营商在5G这个新战场上不得不考虑的问题。
如何破除以上挑战?
让网络像自动驾驶汽车一样,自动化,智能化的行驶
在这样的挑战背景下,业界做了很多的探索和尝试,试图在方案架构,运维技术,运维方式等方面进行变革,将自动化,智能化引入5G核心网运维。有人提出一个有趣的设想,我们的网络是否可以像自动驾驶汽车一样,在没有人干预的情况下,自动,智能的行驶。这样的假设让业界产生了很强的共鸣,也展开了无数的讨论,其中比较著名的就是TMF提出的自动驾驶网络的5层演进节奏,全面诠释了网络在未来10年的演进方向。
将自动驾驶网络的演进分为从level0到level5几个级别,让我们知道网络自动化将会是一个长期的目标,是一个逐步实现的过程,其中AI的能力也会逐步的引入各个领域实现整个演进的转变。
那5G时代的核心网运维如何逐步实现“自动驾驶”呢?
运维架构转型
首先需要考虑的是运维架构层面的改变。
众所周知,存量网络的管理系统多且孤立分散,数据相互隔离;管理面能力没有服务化,无法按需进行灵活的部署,导致了底层资源浪费;传统管理面和业务网元是分离的,这不符合5G时代核心网网元实时控制,本地自治的诉求。为了解决这些问题,就需要在管理面架构上进行融合,实现跨域跨代跨平台跨层的统一管理。就如华为提供的iMaster MAE-CN方案,非常巧妙的将传统网管,VNFM LCM,NFVO,NSSMF,MEAO及相关运维工具子系统进行融合。一方面,这些组件并不是粗暴式的堆叠,而是以微服务的方式存在,方便客户按需部署,另一方面,最重要的是它打通了传统烟囱式的运维体系,让数据可无缝互通,不仅能够让日常运维操作简单许多,更重要的是增加了发掘数据更多价值的可能性。同时,这些组件都连接着一个智能的调度引擎,通过系统而灵活的调度,实现从网络设计,部署,到运维、优化的端到端的管理,而不仅仅是传统意义上简单的运维。
AI引入日常监控场景——主动预防实现亚健康状态精准识别
另一个非常重要的转变就是技术的改变。这里,大部分的厂商都尝试通用引入AI技术,自动化,智能化的处理核心网运维问题。
熟知核心网运维的工程师,一定深有体会,在建网初期,工程师要花费大量时间逐条进行上万个KPI指标对象的阈值设置,这个阈值是根据以往的专家经验进行设置,由于是静态的阈值,这就给后续日常监控埋下了可能出现误报,漏报异常的情况的隐患,告警的可信度大打折扣。况且不同子网情况不同,子网间这些阈值的设置无法复制,工程师只能通过人工的方式,一个个子网进行设置。最棘手的是异常检测之后的根因分析,工程师需要人工逐条KPI进行故障定位,同时在大量KPI指标中筛选出该异常KPI的关联KPI,通过查看关联KPI的测量值,进一步定位异常的原因。这样全程人工主导的运维方式,效率提升真的是难上加难。
那如何通过AI技术去解放工程师日常的运维工作呢?
我们从阈值的设置入手,看看通过AI如何进行智能的KPI的异常检测。刚才我们提到,传统的阈值设置是基于专家经验设定的静态阈值,工作量大,也不准确,隔上一段时间,还需要根据现网的实际情况进行阈值的纠正调整。这里,华为提出了动态阈值的概念,如何理解呢?首先,有一个AI的训练模型,每周对现网历史数据进行采样,通过AI算法持续的去训练校准这个模型。然后,将现网的实时KPI数据导入训练好的模型中,得到动态阈值范围,也就是说,当网络发生变化时,阈值范围也会发生变化,因此,在网络出现异常的早期阶段,就会有潜在的KPI指标超过阈值范围,系统上报异常。这样,在某种程度上,可以帮助我们提前发现网络隐患和故障,而不是在主要KPI已经异常后去处理故障。
动态的阈值,能够精准的发现网络隐性事故,但是实现运维的闭环,还需要智能的对异常情况进行分析,快速找到根因。这里,华为提供了一种多指标关联分析功能,如果某个KPI指标异常了,系统可以按照贡献度去对相关的指标进行排序,工程师可以基于此快速的找到最大贡献度的KPI,从而快速的定位问题的根因。
AI引入变更操作场景——构筑“三道防线”实现机器值守
除了日常监控场景外,重大变更场景也会使用AI。
我们知道,在5G时代,产品版本发布频率越来越高。因此,会进行大量的重大操作,如普通升级、灰度升级、配置变更、扩容等。现网70%以上的重大事故是由于网络变更导致的。一旦异常,对业务和用户体验影响很大。每年有数千次的变更,给运营商带来了巨大的挑战。同时,由于人工操作量大,网络异常识别平均耗时5小时。导致在业务影响增加时,无法提前分析和发现异常,这样就错过了解决问题的时间窗口。
因此,在这种场景下,工程师希望运维方案能够建立变更前、变更中、变更后三道防线,提前规避风险和问题。
现在,让我们来看看这个系统是如何工作的。
首先,在变更前,系统自动进行在线健康检查,确保待变更网络健康。其次,变更过程中,所有变更准备和操作均按照规范自动执行。例如,在变更前的计划中明确每个操作的结果。这样,每一步的操作,都可以有依据,方便变更过程中进行对比。最后,在变更值守阶段,需要持续实时监控网络异常情况。这里,华为利用复合LSTM神经网络递归生成多指标关联分析。其将指标分为呼叫类指标组、注册类指标组、接入类指标组等。该算法可以训练每个组,使每个组可以生成出一个关联性。当某个异常发生时,对应群组的关联性就会发生改变。这样就可以快速定位异常指标组。再通过KPI贡献度,识别出异常KPI。接下来,我们再来看看如何快速定界异常点。其根据历史的专家经验,在系统中预置了很多故障场景;同时,把告警、日志、KPI等多维度因素作为一个事件,与预置场景进行匹配,这样就能快速定界网络异常了。这样就可以帮助我们快速、及时地定位问题了。
AI的引入,最终实现从被动运维到主动运维转型
以上分享了两个引入AI的运维场景。不难发现,将AI引入到运维的场景后,传统运维方式逐渐发生了变化。传统的方式是一种被动的运维方式,就是当故障已经出现了,我们才通过各种各样的系统,方法,以及人工的方式,去尽可能快速准确的进行故障定界定位,从而快速恢复。而AI的引入,让我们对运维的模式有了新的想法。我们可以基于AI技术去进行主动运维,也就是说在故障发生之前,主动的识别网络的风险,将网络的亚健康问题暴露出来,在它变成故障之前就把它处理掉,而不是等亚健康问题变成故障后,才去解决问题。然后再通过AI技术,快速的定位问题,将风险快速识别。
5G让网络自动驾驶成为了焦点,而AI的引入加速了网络自动驾驶的演进。未来的5到10年将是网络自动驾驶快速孵化,演进的时代,让我们拭目以待。
责任编辑:tzh
全部0条评论
快来发表一下你的评论吧 !