智能电网
新型电力系统—电网端监控方案
1.新能源的频率与系统频率相同。
2. 新能源出口电压与系统电压相同,其最大误差应在5%以内。
3. 新能源相序与系统相序相同。
4.新能源电压相位与系统电压相位一致。
运维平台- 监控系统
设计方案
一、概述
监控系统是一种可以对特定设备、网络、应用程序或服务进行实时监控和管理的技术。监控系统的主要目的是检测和识别系统或服务的故障或异常,以便能够在问题发生之前识别和纠正它们。监控系统可以帮助企业或组织实时了解其系统或服务的健康状况,并做出相应的决策。
二、监控系统通常由以下几个组成部分:
1.数据采集:
它们是在设备或服务上安装的软件或硬件组件,它们收集数据并将其发送到监控系统进行处理和分析。
2.数据服务器:
它们是处理和存储来自监控代理的数据的计算机。监控服务器通常拥有强大的计算能力和存储能力,以便处理和存储大量的监控数据。
3.HMI控制台:
它是监控系统的用户界面,通常是一个应用程序或客户端,用户可以通过它来查看系统或服务的实时状态、性能和运行状况,以及查看历史数据和生成报告等。
监控系统通常可以监控网络流量、服务器资源使用率、应用程序性能、安全事件和用户活动等方面的数据。这些数据可以用来识别潜在的问题并及时解决它们,从而提高系统的可靠性、性能和安全性。
4.监控目标
监控系统的目标是提供实时、准确的系统性能和状态数据,以帮助管理员和运维人员及时发现和解决问题,从而实现以下几个目标:
预防系统故障:
监控系统可以及早发现系统中的异常,如网络拥塞、硬件故障、软件崩溃等,从而提前预防系统故障,减少停机时间和对业务的影响。
提高系统性能:
监控系统可以检测系统性能瓶颈和资源利用率,优化系统配置和调整资源分配,从而提高系统的性能和可扩展性。
5.提高系统安全性:
监控系统可以检测安全事件和攻击,如恶意软件、入侵、数据泄漏等,从而及时采取安全措施,保护系统和数据的安全性。
6.优化运维效率:
监控系统可以自动化和简化监控和管理任务,减少人工干预,从而提高运维效率和降低管理成本。
7.改进用户体验:
监控系统可以检测应用程序或服务的性能和可用性,从而帮助企业或组织提高用户体验,提高用户满意度。
8.监控系统的目标:
是为企业或组织提供实时的系统性能和状态数据,从而提高系统的可靠性、性能、安全性和用户体验,同时也为企业或组织提供更高效、更可靠的运维管理和资源利用方式。
9.监控作用和价值
监控系统是运维系统或平台系统中较为核心的组成部分,它承载了运维工作中数据闭环的部分。从功能角度,监控系统分为数据采集功能、数据上报功能、数据存储功能、告警功能、大屏功能、报表功能等功能模块;从技术场景角度,监控系统又可以分为机房监控、硬件监控、网络监控、操作系统监控、中间件监控、云平台监控、业务监控、拨测监控等垂直技术领域;从业务场景角度,监控系统还可以分为资源类监控、成本类监控、审计类监控、质量类监控、运营类监控、安全类监控等垂直业务领域。
监控系统在现代互联网技术中具有非常重要的作用和价值,主要体现在以下方面:
系统可靠性和稳定性:
监控系统可以实时监测系统的运行状态、性能指标和错误日志,及时发现故障并进行处理,从而保证系统的可靠性和稳定性。
性能优化:
监控系统可以通过分析性能数据,发现系统中的瓶颈和性能瓶颈,从而进行优化和改进,提高系统的性能和响应速度。
安全保障:
监控系统可以监测网络流量、安全日志和异常事件,发现和处理安全威胁,提高系统的安全性和防御能力。
预测性维护:
监控系统可以通过收集和分析设备传感器数据,预测设备故障,并及时进行维护,避免设备损坏和停机造成的损失。
费用控制:监控系统可以通过数据分析和自动化处理,提高管理效率,减少不必要的人工成本和管理费用。
决策支持:监控系统可以提供实时数据和分析结果,帮助管理者进行决策,优化业务流程和提高管理效率。
监控系统可以帮助企业和组织提高系统可靠性、性能、安全性和效率,降低成本和风险,为企业和组织的业务发展提供有力的支持和保障。
在稳定性保障体系中,核心就是在干一件事,减少故障。我们可以看一下故障的生命周期:
减少故障有两个层面的意思,一个是做好常态预防,不让故障发生;另一个是如果故障发生,要能尽快止损,减少故障时长。而监控的典型作用,就是帮助我们发现及定位故障,这两个环节对于减少故障时长至关重要。
运维人员和研发人员是典型的关注稳定性的人,不过侧重点不同。发生故障的时候,运维人员更希望快速找到问题根因,及时止损。而研发人员,更希望能“自证清白”。不管出于何种目的,监控都是不可或缺的工具。
其实,监控的作用还有很多,比如用于日常巡检,作为性能调优的数据佐证,提前发现一些设备、中间件不合理的配置。
随着时代的发展,监控也从最开始的一句话需求 -- 及时感知系统出现的问题,发展到了希望预知问题,并且可以洞察业务经营数据,越来越多的诉求让我们逐渐意识到监控的重要作用。
10.业界主流监控系统
现在运维监控工具非常多,对于监控系统的选型需要充分了解其优缺点再做决定。
11.数据处理能力
对于大规模和高复杂性的监控场景可能需要更为专业和灵活的监控系统。
警报功能 功能相对有限,不能实现复杂的警报规则和多种警报通知方式。
界面视觉效果较弱:相对于其他监控系统,界面视觉效果较弱,不够美观和易用。i适用于中小型网络和系统管理,可以帮助用户监控其IT基础设施和应用程序的性能和可用性。但是,对于大规模和高复杂性的监控场景,可能需要更为专业和灵活的监控系统。
三、大规模和高复杂性的监控场景监控系统
1.监控指标
硬件监控、系统监控、应用监控、网络监控、流量分析、日志监控、安全监控、API监控、性能监控、业务监控。
2.硬件监控
查看硬件设备灯光闪烁情况判断是否故障
通过对硬件详细情况进行监控,并对电压电流等设置报警设置报警阈值。
3.系统监控
监控系统资源的使用情况,系统监控是监控体系的基础。
4.应用监控
硬件监控和系统监控和相关的服务都需要监控起来。
5.网络监控
网络监控是监控平台是必须要考虑的,监控点可以借助很多商业的监控工具,服务提供商还可以帮助你监控状态。
6.日志监控
通常情况下,随着系统的运行,操作系统会产生系统日志,应用程序会产生应用程序的访问日志、错误日志,运行日志,网络日志,我们可以进行日志监控。
7.安全监控
数据库、配置检测、全面检测主机、Web应用漏洞自主挖掘和行业共享相结合漏洞,杜绝最新安全隐患。
8.API监控
由于API变得越来越重要,很显然我们也需要这样的数据来分辨我们提供的 API是否能够正常运作。
9.性能监控
全面监控网页性能,响应时间、建立连接时间、页面性能指数、响应时间、可用率、元素大小等。
10.业务监控
没有业务指标监控的监控平台,不是一个完善的监控平台,通常在我们的监控系统中,必须将我们重要的业务指标进行监控,并设置阈值进行告警通知。
重要指标都可以通过监控系统进行监控展示。
11.监控系统设计
运维监控平台不是简单的监控的环境。
构建一个智能的运维监控平台,必须以运行监控和故障报警这两个方面为重点,将所有业务系统中所涉及的网络资源、硬件资源、软件资源、数据库资源等纳入统一的运维监控平台中,并通过消除管理软件的差别,数据采集手段的差别,对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制,最终实现运维规范化、自动化、智能化的大运维管理。
智能的运维监控平台,设计架构分为6层,三大模块。
数据收集层:位于最底层,主要收集网络数据、业务系统数据、数据库数据、操作系统数据等,然后将收集到的数据进行规范化并进行存储。
数据展示层:位于第二层,是一个Web展示界面,主要是将数据收集层获取到的数据进行统一展示,展示的方式可以是曲线图、柱状图、饼状态等,通过将数据图形化,可以帮助运维人员了解一段时间内主机或网络的运行状态和运行趋势,并作为运维人员排查问题或解决问题的依据。
数据提取层:位于第三层,主要是对从数据收集层获取到的数据进行规格化和过滤处理,提取需要的数据到监控报警模块,这个部分是监控和报警两个模块的衔接点。
报警规则配置层:位于第四层,主要是根据第三层获取到的数据进行报警规则设置、报警阀值设置、报警联系人设置和报警方式设置等。
报警事件生成层:位于第五层,主要是对报警事件进行实时记录,将报警结果存入数据库以备调用,并将报警结果形成分析报表,以统计一段时间内的故障率和故障发生趋势。
用户展示管理层:位于最顶层,是一个Web展示界面,主要是将监控统计结果、报警故障结果进行统一展示,并实现多用户、多权限管理,实现统一用户和统一权限控制。
从功能实现划分,又分为三个模块,分别是数据收集模块、数据提取模块和监控报警模块,每个模块完成的功能如下:
数据收集模块:此模块主要完成基础数据的收集与图形展示。数据收集的方式有很多种,可以通过代理模块实现,还可以通过自定义脚本实现。
数据提取模块:此模板主要完成数据的筛选过滤和采集,将需要的数据从数据收集模块提取到监控报警模块中。可以通过数据收集模块提供的接口或自定义脚本实现数据的提取。
监控报警模块:此模块主要完成监控脚本的设置、报警规则设置,报警阀值设置、报警联系人设置等,并将报警结果进行集中展现和历史记录。
四、通过软件实现智能运维监控系统。
其中,数据提取模块用于其他两个模块之间的数据通信,而数据收集模块可以有一台或多台数据收集服务器组成,每个数据收集服务器可以直接从服务器群组收集各种数据指标,经过规范数据格式,最终将数据存储到数据收集服务器中。
监控报警模块通过数据抽取模块从数据收集服务器获取需要的数据,然后设置报警阀值、报警联系人等,最终实现实时报警。报警方式支持手机短信报警、邮件报警等,另外,也可以通过插件或者自定义脚本来扩展报警方式。这样一整套监控报警平台就基本实现了。
监控系统的关键技术主要有如下5点:
1、采集器
采集器决定了监控数据的来源,采集器的好坏决定了监控数据的覆盖面、数据质量和及时性。一个好的监控系统应该配备大量针对常见技术场景的采集器,并提供方便的自定义数据接口。标准场景的监控数据占所有监控数据的 70% 左右,大量的标准采集器可以大大降低监控系统的持有成本;自定义监控数据占所有监控数据的 30% 左右,设计良好的自定义监控数据接口可以更好的调度、组织和收集自定义数据源,并为后续的二次开发工作夯实工程基础。
采集器负责采集监控数据,有两种典型的部署方式,一种是跟随监控对象部署,比如所有的机器上都部署一个采集器,采集机器相关的指标;另一种是远程测试式执行命令采集数据。
2、时间序列存储技术
时间序列的管理、存储和处理是监控闭环中的核心环节,在设计或评估一个监控系统时应着重考察时间序列存储的技术方案。时间序列技术的关键点在于可用性、可靠性、压缩比、旧数据清理、指标项管理、多维度聚合等多个方面。
监控系统的架构中,最核心的就是时序库
数据的查询效率会影响监控系统的使用效率,尤其在告警计算、报表生成、数据统计等使用场景下,低下的查询效率会极大影响对数据使用方式的想象空间。
3、告警引擎
告警引擎的核心职责就是处理告警规则,生成告警事件。通常来讲,用户会配置数百甚至数千条告警规则,一些超大型的公司可能要配置数万条告警规则。每个规则里含有数据过滤条件、阈值、执行频率等,有一些配置丰富的监控系统,还支持配置规则生效时段、持续时长、留观时长等。
告警引擎通常有两种架构,一种是数据触发式,一种是周期轮询式。
数据触发式,是指服务端接收到监控数据之后,除了存储到时序库,还会转发一份数据给告警引擎,告警引擎每收到一条监控数据,就要判断是否关联了告警规则,做告警判断。因为监控数据量比较大,告警规则的量也可能比较大,所以告警引擎是会做分片部署的,即部署多个实例。
周期轮询式,架构简单,通常是一个规则一个协程,按照用户配置的执行频率,周期性查询判断即可。
生成事件之后,通常是交给一个单独的模块来做告警发送,这个模块负责事件聚合、收敛,根据不同的条件发送给不同的接收者和不同的通知媒介。告警事件的处理,是一个非常通用的需求,而且非常零碎、复杂,每个监控系统都去实现一套,通常不会做得很完备。
对告警策略配置方式的考量,应该以灵活性和可维护性为目标。混合架构、微服服等新技术催生了更现代化的业务系统技术栈,这对告警策略的灵活性提出更高要求,告警策略应该支持条件告警、组合条件告警、同比环比、回归、线性拟合等高级功能,最好能支持基于聚类算法的告警合并
4、数据展示
监控数据的可视化也是一个非常通用且重要的需求,支持不同类型的数据源,图表非常丰富,基本可以看做是开源领域的事实标准。
监控数据可视化,通常有两类需求,一个是即时查询,一个是监控大盘(Dashboard)。即时查询是临时起意,比如线上有个问题,需要追查监控数据,还原现场排查问题,这就需要有个方便我们查看的指标浏览功能,快速找到想要的指标。监控大盘通常用于日常巡检和问题排查,由资深工程师创建,放置了一些特别值得重点关注的指标,一定程度上可以引发我们思考,具有很强的知识沉淀效果。如果想要了解某个组件的原理,这个组件的监控大盘通常可以带给你一些启发。
五、监控系统未来发展趋势
1、人工智能
我们的架构应该支持数据科学技术和机器学习技术的引入,技术还在快速发展之中,很多算法和数据方法还在不断变化,应该为这类变化保留足够的灵活性。
人工智能技术将逐渐应用于监控系统中,以实现智能化的监控和预测分析。通过对大数据的分析和机器学习,监控系统将能够实现更加准确、高效的故障预测和预警,从而提高系统的可靠性和稳定性。
2、大数据
监控系统越来越发挥整体运维系统的中枢作用,运维系统逐渐由流程驱动转变为数据驱动。我们应该更加重视监控系统的开放性,使监控系统具有与其它所有运维子系统对接、整合的能力,并对外做出数据、算法等技术输出。
随着大数据技术的不断发展,监控系统将能够处理更加庞大的数据量,实现更加精细的监控和分析。同时,监控系统还将能够更加灵活地支持各种数据源,并实现数据的实时采集、存储和查询。
云、容器和微服务的出现使被监控对象的数量增加了两到三个数量级,所以高维度的数据管理能力尤其重要,我们的时间序列管理技术架构应该为 10 亿级别时序数据个数作好充足准备。
3、云服务
云计算技术的发展将推动监控系统向云化方向发展。未来的监控系统将不仅支持本地部署,还将提供云服务,使得用户可以随时随地访问监控数据,同时还需支持混合云架构,目前不少企业IT架构是混合云架构。
4、自动化
云原生技术浪潮带来了混合的技术栈和高动态的服务端架构,我们应该重视采集器的自主能力,在面向复杂多变的被监控环境时,采集器尽可能做到对环境的自动识别,对指标的自主采集。
自动化技术将成为监控系统未来发展的重要方向。未来的监控系统将能够实现自动化配置、自动化发现和自动化报警等功能,从而减轻运维人员的工作负担,提高工作效率。
5、安全性
随着网络安全问题的日益严重,监控系统的安全性将成为未来的重要关注点。未来的监控系统将需要更加强大的安全机制,保障监控数据的安全和隐私。
总之未来的监控系统将面临更多的挑战和机遇。只有不断地创新和发展,才能更好地满足用户的需求,推动监控系统的发展和进步。
6、总结
运维监控平台是运维工作中不可或缺的一部分,如何构建适合自己的运维监控平台,每个公司的需求不一样,每个运维面对的痛点也不尽相同,但,不管有什么需求,多少需求,万变不离其宗,有了机器上的各种监控数据,运维就能做很多事情。
编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !