运维监控平台是工业互联网平台运维工作中不可或缺的一部分,如何构建适合自己的运维监控平台,每个公司的需求不一样,每个运维面对的痛点也不尽相同,但,有了监控,有了充足的数据,一切以数据说话,运维就不再是背锅侠了。
运维管理是工业互联网平台使能技术之一,在平台中的地位极其重要。在工业互联网平台的运维管理中,我们经常听到关于运维的话题:“无监控,不运维”。
随着云计算和互联网的高速发展,大量应用需要横跨不同网络终端,并广泛接入第三方服务,平台系统架构越来越复杂。快速迭代的产品需求和良好的用户体验,需要运维管理者时刻保障核心业务稳定可用。
一 运维管理的痛点和难点
运维工程师在运维中过程中经常遇到运维工作如下的痛点和难点 :
1、面向业务的运维,不但关心单点物理资源的运行状态,更关心整个业务系统的健康状态
2、如果企业使用了大量的API和模块化应用,那么需要关注每个接口的性能变化情况和指标
3、对于运维主管及企业管理层来说,特别需要上墙的监控大屏
4、运维需要每周、每月查看报告趋势分析,但传统运维工具数据导出困难
5、需要第一时间转雀和快速发现故障节点,减少业务中断带来的损失
二 运维管理
1、物理资源监控
(1)物理资源状态监控。提供可按照资源池、集群对物理设备的资源状态、如计算、存储、网络等运行状态进行监控。
(2)故障告警及通知。支持Email或者短信、微信等告警的实时通知消息。
(3)资源库存及资产管理。支持对物理设备库存及资产管理,需要扩充及时提供运维管理人员。
(4)故障分析报表。可按照故障级别、事件类别出具故障的分析报表,便于改善服务。
2、业务资源监控
(1)业务资源状态监控。可按照服务如虚拟主机、云数据库、块存储等进行资源状态监控。
(2)业务资源容量监控。对业务资源层的资源容量进行分别监控,可设置容量告警阈值提醒资源扩容。
(3)运维操作记录。记录运维相关的操作日志且存档期不少于半年。
三 运维管理一般流程和功能
1.运维管理流程
运维管理的一般过程如上图所示,制定云服务运维管理流程,需要包括:服务台、事件管理、问题管理、变更管理、配置管理、发布管理、知识库管理、报表管理。
2、运维管理功能
云服务运维管理系统应提供以下功能:
(1)监控管理,通过对各种物理资源、虚拟化资源数据的监控,将资源以用户可见的资源池形式提供给上层应用。统一资源管理,支持发现其管辖范围内的物理设备以及它们的组网关系。支持将这些物理设备进行池化管理,提供给应用管理模块使用。
(2)权限管理,可以创建和管理系统中管理员帐号、管理员所承担的角色和管理员管理区域,实现系统的分权分域的功能。系统支持对用户进行访问控制, 支持用户组、分权、分域、密码管理,便于维护团队内分职责共同有序地维护系统。
(3)告警管理,是确保系统正常运行的重要活动,包括:系统故障预防设计、故障检测和处理等。告警管理是故障管理的重要部分,便于运维人员进行故障定位,保证系统稳定运行。
(4)拓扑管理,提供一个可视化界面,呈现全系统的所有资源信息。支持常用设备自动发现和识别,系统还对网络类型有很好的兼容性,可以很好的发现
VPN、VLAN网络拓扑,还支持按照规则识别不同的设备类型, 方便更准确的呈现拓扑。
(5)日志管理包括日志记录、查看、审计。
(6)软件管理,支持云操作系统软件预安装和预置、软件自动化批量安装、软件升级和补丁更新等功能。
(7)统计报表管理,可以让管理员查看虚拟机登录、分配以及运行状态信息,有助于系统优化,调整提升。报表可以根据要求定制,内容主要包括之前描述过得监控内容,包括CPU、内存、网络流量、数据库性能、中间件性能等各类性能报表和故障报表。
(8)资产管理,是运维管理系统的核心功能,能够实现对云平台相关的软硬件信息资产信息的全面管理,同时,对资产信息进行实时监控变更等功能,满足企业对资产管理的需要。
(9)工单管理,系统提供完整的工单管理的功能,支持创建工单的流转流程。支持手工创建工单,也可以在告警响应动作中创建工单;支持以工单方式实现对告警事件的应急响应、工作任务分配、工作任务管理,可以进行流程定制和流程查看,工作流可以跨多个中心进行联动。
(10)计费管理,不同的云服务按照各自的计费项计量并收费的能力。
(11)安全管理,是对数据、账号等IT资源采取全面保护,使其免受犯罪分子和恶意程序的侵害,并保证云基础设施及其提供的资源能被合法地访问和使用。
(12)对系统数据均实现多副本保存或其他冗余备份机制。
(13)可实现云服务运维管理系统的自动化管理。
四 运维监控平台设计思路
构建一个智能的运维监控平台,必须以运行监控和故障报警这两个方面为重点,将所有业务系统中所涉及的网络资源、硬件资源、软件资源、数据库资源等纳入统一的运维监控平台中,并通过消除管理软件的差别。
数据采集手段的差别,对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制,最终实现运维规范化、自动化、智能化的大运维管理。
智能的运维监控平台,设计架构从低到高可以分为6层,三大模块,如下图:
1、数据收集层:位于最底层,主要收集网络数据、业务系统数据、数据库数据、操作系统数据等,然后将收集到的数据进行规范化并进行存储。
2、数据展示层:主要是将数据收集层获取到的数据进行统一展示,展示的方式可以是曲线图、柱状图、饼状态等,通过将数据图形化,可以帮助运维人员了解一段时间内主机或网络的运行状态和运行趋势,并作为运维人员排查问题或解决问题的依据。
3、数据提取层:主要是对从数据收集层获取到的数据进行规格化和过滤处理,提取需要的数据到监控报警模块,这个部分是监控和报警两个模块的衔接点。
4、报警规则配置层:主要是根据第三层获取到的数据进行报警规则设置、报警阀值设置、报警联系人设置和报警方式设置等。
5、报警事件生成层:位于第五层,主要是对报警事件进行实时记录,将报警结果存入数据库以备调用,并将报警结果形成分析报表,以统计一段时间内的故障率和故障发生趋势。
6、用户展示管理层:位于最顶层,是一个Web展示界面,主要是将监控统计结果、报警故障结果进行统一展示,并实现多用户、多权限管理,实现统一用户和统一权限控制。
在这6层中,从功能实现划分,又分为三个模块,分别是数据收集模块、数据提取模块和监控报警模块,每个模块完成的功能如下:
数据收集模块:此模块主要完成基础数据的收集与图形展示。数据收集的方式有很多种,可以通过SNMP实现,也可以通过代理模块实现,还可以通过自定义脚本实现。常用的数据收集工具有Cacti、Ganglia等。
数据提取模块:此模板主要完成数据的筛选过滤和采集,将需要的数据从数据收集模块提取到监控报警模块中。可以通过数据收集模块提供的接口或自定义脚本实现数据的提取。
监控报警模块:此模块主要完成监控脚本的设置、报警规则设置,报警阀值设置、报警联系人设置等,并将报警结果进行集中展现和历史记录。常见的监控报警工具有Nagios、Centreon等。
运维管理平台主要有三大部分组成,分别是数据收集模块、监控报警模块和数据提取模块。其中,数据提取模块用于其他两个模块之间的数据通信,而数据收集模块可以有一台或多台数据收集服务器组成,每个数据收集服务器可以直接从服务器群组收集各种数据指标,经过规范数据格式,最终将数据存储到数据收集服务器中。
监控报警模块通过数据抽取模块从数据收集服务器获取需要的数据,然后设置报警阀值、报警联系人等,最终实现实时报警。报警方式支持手机短信报警、邮件报警等,另外,也可以通过插件或者自定义脚本来扩展报警方式。
五 结语
运维监控平台是工业互联网平台运维工作中不可或缺的一部分,也是平台使能技术的一个重要内容。如何构建适合自己的运维监控平台,每个公司的需求不一样,每个运维所面对的痛点也不尽相同,但,有了监控,有了充足的数据,运维就可以有的放矢。一切以数据说话,运维就不会再虚无缥缈,便不用再是背锅侠了。
全部0条评论
快来发表一下你的评论吧 !