电子说
中国地大物博,人口众多,很多民生工程都是至关重要的,电网就是其中的典型代表。作为全球最大的公用事业企业,电网经营区域覆盖全国,供电人口数量庞大,是关系国民经济命脉和国家能源安全的国有重点骨干企业,承担着保障更安全、更经济、更清洁、可持续的电力供应基本使命。然而作为电网运作的支持基础,电网的信息化建设一直面临着来自地域跨度大、异构化管理、利旧观念根深蒂固等问题,企业信息化建设在不断向前发展。
除了面对传统信息化建设转型的挑战,电网还面临着来自“互联网+”的压力。在“互联网+”的大环境中,其业务形式、服务理念改变,让电网认识到信息化一定要服务于用户 ,用户体验才是“互联网+”潮流中的主要竞争力。与此同时,电网庞大系统产生的海量历史实时数据的利用也是个难题,如何针对电网各环节运行和监测中产生的海量历史实时数据,做相应的存储、集中、整合、共享和分析,同时对外提供标准统一的访问服务,是电网信息化建设的重要组成部分。
大、多、新、难——日志集中管理来帮忙在电网的海量数据中,比较让人头疼的数据之一便是日志。我们都知道,电网在多年的发展中不断的更新进化,长年累月的积累导致各方面的设备类型种类较多。与此同时,由于发展服务器的数量规模也在不断壮大,更涉及到省、市、县等多级接入,面临的复杂情况可想而知。再加上电网进入云化改造阶段,运维人员从原来几百台小型机,转换到面对上千台x86服务器,几千个虚拟机,日常运维也带来新的复杂变化。
基础设施的庞大也预示着业务系统多样化,生产系统、营销系统、调度系统、财务系统、中间件、数据库等等上百个系统同时运转,而且由于时间和业务需求不同,这些系统大多是来源于不同时期的不同开发商,日志非常不规范,一旦其中某个系统出现问题,想要及时定位故障所在会非常困难,于是日志易就能彰显价值。
在对业务系统、基础设施以及网络设备的日志进行集中管理后,提取不同设备及应用的日志字段用于后续事件分析,这中间涉及防火墙、中间件、Linux和Windows操作系统等多种类型日志。
采集后我们可以基于角色的权限管理,对日志进行分组,赋予使用者不同的权限,如此庞大规模的日志我们可以按照习惯设立成数十个分组,让整个体系架构清晰明了。与此同时还能通过仪表盘分组,灵活查看不同设备日志的整体运维情况,方便掌握庞大系统下的不同模块运行情况,做到有的放矢。
集中管理还不够,用日志来做深度分析
做到了复杂情况下的日志集中管理,其实是远远不够的,这只是第一步,我们还需要把获取的日志数据利用起来,这时候面临的情况就更加复杂了,例如有的时候业务出现问题,而网管监控系统的指标却是正常的,更难以从海量日志中快速定位故障。
面对这种情况,我们可以随时调阅定时任务统计结果进行分析,同时对每天统计结果进行二次统计,进而分析出周、月、年的业务数据运维情况,并定时产生报表,自动发送用户邮箱。
在深度分析方面,日志易不仅可以通过历史基线对比,实时掌握同比数据分析情况,还可以更精细的分析不同维度的业务运行情况,下面便是一些通过日志进行业务分析的典型例子:
上图的分布图和柱状图直观的显示出业务系统来源IP的分布,可以看出有一个IP在最近30分钟内的访问量比其他IP都要多很多。经过分析推测出两种潜在原因:
该IP为堡垒机,所有客户端的访问都经过堡垒机访问到业务系统。如果是堡垒机,可以看出堡垒机的负载并不均衡,需要运维人员着重观察下堡垒机的负载情况。
该IP是客户端IP,如果是客户端IP的话,那么近30分钟的访问量达到6万次,需要运维人员重点关注下该IP对应属于哪个部门的的哪个人员,有没有在做高危操作。
上图的业务访问区间为正态分布展现,对于在蓝色区域面积的访问量是正常的,超过面积的则为异常点,可以通过鼠标下钻到详细日志,可以查看异常的详细情况,方便及时解决业务异常情况。
除此之外,我们还能详细查看业务系统404错误排行、业务系统访问排名、主机情况、交换机概述等具体情况,同时还能对多设备运维数据进行实时对比。
最后我们还能通过对不同设备进行告警设置,配置交换机常用关键字告警策略,触发告警后产生报表并自动发送至用户邮箱。
电网的信息化建设情况复杂,海量日志数据的合理利用为电网提供了便利并带来巨大价值:采集网络设备、服务器日志并进行日志解析,实时化运维对关键字进行告警,对日志核心指标进行分析;运维自动化、智能化,根据业务逻辑关联分析日志信息,自动分析异常业务流转环节;基于海量日志数据挖掘的智慧运维,做到运维的异常自动检测、容量预测和规划等。相信随着对海量日志数据价值的深度挖掘,未来日志易还会为电网提供更有力的后续支持。
全部0条评论
快来发表一下你的评论吧 !