电网调控大数据平台体系架构及关键技术

w0Km_dldzjsyyy 2023-12-11 730

智能电网

311人已加入

描述

　　以数字化技术和能源互联网理念为驱动的“数字新基建”对现有调度自动化系统的数字化转型提出新的挑战，该文考虑调控数据存储规模、数据加工复杂度和数据服务多样化的需求，提出电网调控大数据平台的体系架构。在此基础上，研究了多源调控数据集成与融合、异构数据库分层统一存储、调控数据资产管理、大数据算法引擎等关键技术，实现全业务、全场景的电网调控数据汇集、加工和资产管理。该技术方案为调控云智能分析应用提供了存储、数据和算法的有力支撑。

　　0 引言

　　电网调度自动化系统作为电网运行的重要技术支撑，伴随着三代电网的发展而不断完善［1］，系统建设也从引进消化逐步发展为全面国产化，经过多年运行积累了丰富详实的数据资源。然而，烟囱型的建设模式使这些数据分散在不同调度机构、不同专业、不同安全区，存在系统独立维护、数据类型多样、统一决策困难等问题［2］，当前依托于确定性公式、模型、参数及孤立式数据的电网分析模式，将难于应对特高压交直流混联大电网运行风险不断累积、新能源消纳矛盾突出、市场化改革快速推进等诸多挑战。

　　近年来，随着计算能力提升、数据爆发增长、机器学习算法进步、投资力度加大，大数据技术迎来了繁荣时期，在引领新一轮科技革命和产业变革中扮演着重要角色，受到各国政府、学术界和产业界的广泛关注［3］。大数据技术与物联网、云计算技术共同为电网调控领域的再次创新提供了推动力。大数据思维将各种数据资源从简单的处理对象转变为生产的基础要素，与大能源思维融合为大能源系统广泛互联、开放互动及高度智能提供有力支撑。大数据技术［4-5］涵盖了从信息产生、采集、存储、转换、集成、挖掘分析等全生命周期，需要具备从不同类型的多源异构数据中，快速提炼出有价值信息的能力。

　　电力大数据既是“AI+电力”的重要基础［6-9］，也是衔接智能电网与人工智能应用的桥梁。电力系统拥有来自能量管理系统（energy management system，EMS）、调度管理系统（operation management system，OMS）、生产管理系统（production management system，PMS）、广域监测系统（wide area measurement system，WAMS）、配电管理系统（distribution management system，DMS）、电能量计量系统（tele-meter reading system，TMR）、地理信息系统（geographic information system，GIS）等多个业务系统的结构化、半结构化和非结构化数据，具备大数据的规模大、数据多样、价值密度低和高速性等特性，智能电网大数据技术研究已广泛开展，其中包括针对电网调控领域特定场景的大数据平台及应用研究［10-14］，实践成果展现了大数据在存储、计算、分析挖掘等方面的技术优势。但已有研究成果多从单一或特定场景构建大数据挖掘分析，未从支撑调控全景数据接入、数据标准统一、数据共建共享和调控业务分析的角度考虑大数据平台的体系架构与支撑能力建设［15-16］。随着以新能源为主体的新型电力系统建设开展，调度运行对扩展数据管理的范畴，以及提升数据深度应用支撑能力提出了新的需求，而当前调控运行信息分布分散、数据分析挖掘深度不够，还存在数据存储时间长短不一、缺乏统筹规划、数据冗余重复以及缺少调控领域挖掘算法等问题［17］。调控云平台是解决上述问题的一种可行方法，其总体架构指出需要突破的模型数据平台、运行数据平台、实时数据平台和大数据平台关键技术［17］。其中大数据平台实现数据采集、数据存储、数据处理、数据分析挖掘等功能，为大数据存储、计算、分析等提供统一的平台支撑。

　　为充分发挥调控全景数据资源优势，实现调控业务精益管理，本文结合调控云“资源虚拟化、数据标准化、应用服务化”的调度信息化支撑体系［17］，从支撑调度智能分析、驱动业务发展的角度，对调控云中大数据平台的总体架构设计展开论述，并详细阐述了大数据平台关键技术，为后续大数据技术在电网调控领域的研究与发展提供了有益参考。

　　1 系统总体架构1.1 体系架构

　　调度自动化系统既是工业控制系统，也属传统意义上的信息化系统，具有双重属性。为实现未来强耦合互联电网的全业务场景支撑，未来新一代调度自动化主站系统将过渡到双平台模式，由生产控制平台与调控云平台组成“一体两翼”，形成“双轮驱动”的应用态势。生产控制平台继承智能电网调度控制系统（D5000）成果，服务于“双高”电网一体化运行控制目标，有效支撑“绿色低碳、安全高效”能源体系运转。调控云是面向电网调度业务的云服务平台，其PaaS层数据平台细分为模型数据平台、运行数据平台、实时数据平台、大数据平台和人工智能平台等5个部分。其中大数据平台是调控海量数据管理与数据服务中心，一方面实现海量数据的汇集与存储，另一方面实现数据加工、数据分析挖掘等功能，将数据资源进行资产化，通过数据服务的形式实现数据共享共用。大数据平台在调控云的功能定位如图 1所示，大数据平台构建于基础资源和公共组件之上，与模型数据平台、运行数据平台和实时数据平台之间存在约束关系，为人工智能平台提供数据、样本和计算环境，通过数据服务支撑大数据应用。

　　分布式存储系统

　　图 1 大数据平台在调控云的功能定位Fig. 1 Logic structure of the big data platform in dispatching and control cloud

　　1.2 数据特点

　　智能电网大数据按数据来源分为电网内部数据和外部数据，按结构化特征分为结构化数据、半结构化数据和非结构化数据，按时变性分为静态数据和动态数据，其中动态数据按采样频率和生命周期覆盖从微秒级到年度级［18-19］。智能电网大数据具有来源分散、数据量大、种类多、价值大的特征。

　　调控大数据平台管理的数据涵盖智能电网大数据，为适应以新能源为主体的新型电力系统发展要求，还需要在此基础上将数据的范围扩展到跨电网层级，将数据种类扩展到负荷侧资源、一次能源、二次设备和外部环境，以清晰描述和呈现电网空间特性，提供电力系统运行控制和计算分析的数据环境。

　　调控大数据平台管理的数据种类覆盖传感测量、计算产生的自动化运行数据、调度管理产生的各类管理信息和能量交易产生的市场交易数据等。自动化运行数据主要包括厂站电气量、设备开关量、外部环境、一次能源、可控负荷、厂站非电气量以及衍生的各类指标、标签等等。厂站电气量主要包括发电厂、变电站、开关站、换流站电气设备的电压、电流、有功、无功、频率等，对象范围将扩展分布式电源、虚拟电厂等各类新型数据对象；设备开关量包括断路器、刀闸、接地刀闸，扩展到继电保护、系统保护、安控装置、通信设备、自动化设备等；外部环境包括雷电、线路覆冰、山火，扩展到温度、风力、降雨（雪）、台风、地震；一次能源数据新增煤炭、天然气、风能、太阳能、水能相关信息；可控负荷新增电动汽车、充电桩、空调、电采暖、大工业用户负荷、蓄能锅炉和储能等；厂站非电气量包括变压器抽头、变压器油温、发电环保数据，扩展网安信息。管理信息主要包括发电计划、停电计划、输电计划、资产数据、技术标准、全业务流程以及各类报表等等，可扩展基建施工、设备巡视、营销服务等信息。市场交易数据主要包括交易电价、交易计划、合同信息等等。

　　根据上述调控大数据范畴可知，调控大数据平台存储管理的数据需要兼顾自动化运行数据、管理信息和市场交易数据特征，对应的系统功能兼具工业自动化系统、管理信息系统和金融系统的特性，对调控大数据平台提出技术挑战。此外，为适应“统一管理、分级调度”的调度管理模式，调控大数据基于两级大数据平台分布存储，对调控大数据平台的数据统一管理和共享共用也提出了相应的技术要求。

　　1.3 部署模式

　　在部署模式上，大数据平台遵循调控云总体架构设计，采用主导、协同节点两级部署方式，其部署结构如图 2所示。其中主导节点（国分大数据平台）部署220kV以上主网模型数据及运行数据汇集处理，实现大数据汇集、处理及分析挖掘，并担负全网调控数据资产统一管理角色；协同节点（省级大数据平台）部署省调管辖范围内全网模型并实现对应运行数据汇集、处理及分析挖掘，并遵从调控数据资产管理要求。两级大数据平台通过资源高速同步网部署统一的运行数据服务以实现不同电压等级运行数据的透明共享，确保在主导节点和协同节点均能获取到全网全电压等级运行数据。

　　分布式存储系统

　　图 2 电网调控大数据平台部署示意图Fig. 2 Deployment of regulate big data platform

　　1.4 软件架构

　　电网调控大数据平台软件功能上的基础组件与工业大数据相关行业类似，但适应电网“统一管理、分级调度”的特点、数据分散采集的特点，以及遵循调控云架构“资源虚拟化、数据标准化、应用服务化”的要求，技术功能上更侧重数据的统一管理和服务的共建共享。大数据平台一方面实现电网海量数据的汇集与存储，实现物理分布、逻辑统一的数据管理；另一方面实现数据加工、数据分析挖掘等功能，将数据进行资产化，并通过数据服务的形式实现数据共享共用。

　　大数据平台主导与协同节点的技术路线一致，本文重点从国分大数据平台角度介绍。大数据平台软件体系架构如图 3所示，按照“存、通、用”的设计思路，结合调控运行和管理业务数据特点及应用需求，在Hadoop等基础组件之上，从数据处理角度将大数据平台功能分为数据汇集、数据加工、数据服务3层，以及数据管理和数理方法等支撑功能。

　　分布式存储系统

　　图 3 电网调控大数据平台的体系架构Fig. 3 Technology architecture of the regulate big data platform

　　数据汇集面向广域分布式业务系统，通过消息总线汇集来自SCADA、OMS、PMS、DMS、WAMS、TMR、GIS、调度计划、负荷预测、综合智能告警、现货市场技术支持系统、数值天气预报、二次设备监视等多种广域异构源系统的调控数据，通过数据交换方式汇集来自政府、气象、公共服务部门、商业机构、电力市场成员和互联网的调控中心外部数据，技术上通过流式采集或者ELT（抽取、加载、转换）工具完成数据同步。

　　数据加工将汇集存储的原生数据通过算法加工、计算、聚合形成可读取、更具有使用价值的数据，典型调控数据加工结果包括统计特征值、指标数据、标签数据，例如发电有功功率日最大值、日最小值，线路年可用率、发电机年利用小时数、预测准确率、计划执行偏差率等等。

　　数据服务通过国分、省级大数据平台的统一数据服务接口将大数据平台存储管理的各类数据提供给上层应用，以自助式数据分析建立数据价值应用生态，促进数据内增值、外增效，为高效互动、智能开放的能源互联网调度管理提供技术支撑。

　　此外，为解决调控大数据缺乏统筹规划、数据冗余重复等问题，配置数据管理功能，实现两级大数据平台的数据统一管理。数据管理建立涵盖数据资产规划、数据资源目录、数据资产目录等功能的数据资产管理体系，实现数据分布感知、价值激活和价值评估的统一管理，同时具备数据检测、计算管理、主题管理、数仓目录和数据血缘等功能，提高多源、多类型、多调控对象在各级调控中心的汇集和加工效率，实现物理分布、逻辑统一的数据标准化。为支持数据深度分析挖掘，配置丰富的数理方法，支持涵盖数理统计、机器学习及深度学习的上百种调控通用和专用算法。

　　2 电网调控大数据平台关键技术

　　调控大数据平台的关键技术包括多源调控数据集成与融合技术、异构数据库分层统一存储技术、面向调控对象的调控数据资产管理技术和面向业务分析的数理方法引擎等。

　　2.1 多源调控数据集成与融合技术

　　为实现电网调度信息的全局统一规划，实现跨专业、跨调度机构的数据共享，调控云建立了电力调度通用数据对象结构化设计机制［20］，确立了对象ID编码规则、元数据建模规则。本文结合电力调度通用数据对象结构化设计方法，设计调控数据编码、多源数据汇集、多源数据质量和异构调控信息融合方法，解决海量调控数据标准化管理、数据全面汇集和数据共建共享问题。

　　2.1.1 调控数据编码

　　大数据平台管理了海量的调控数据，既包括电网模型数据，也包括电网运行数据、文资数据和知识数据。截止到2021年5月，国分大数据平台管理的数据量已达到1.46万亿条，数据规模超过2000万个，数据种类超过600个，其具有多源异构、规模大、更新速度快、价值密度低且时间序列性强的特点，传统数据处理技术难以满足应用对数据进行多维度分析的需求。针对调控数据大量来自终端设备采集和派生的特点，本文在电力调度通用数据对象ID编码的基础之上设计了一种调控数据组合编码方法，实现更为精细的调控数据建模。调控数据编码表示为四元组《对象类编码，对象编码，数据管理机构代码，数据编码》，其中对象类编码对应电力调度通用数据对象ID的4位“大类码”、“小类码”，对象编码对应电力调度通用数据对象的ID，数据管理机构代码对应电力调度通用数据对象结构化设计的数据管理机构代码，数据编码是8位全局唯一类型编码。

　　典型的调控数据编码如表 1所示。大数据平台处理的数据以电网一次设备运行数据为主，也包括设备的参数数据、环境数据、操作数据，以及交易数据、社会经济数据等等，调控数据编码可以精确表述上述调控数据更细粒度的物理含义，且调控数据编码在两级大数据平台之间充分共享，保证了两级大数据平台之间数据定义的一致性，为实现多级调控中心全域数据统一建模奠定了基础。调控数据编码按照上述四元组的规则编制和扩展，新增调控数据类别时，依据新增数据对象的对象类编码和数据对象编码进行扩充，即可形成新的数据编码，具有良好的可扩展性。随着业务发展存量调控数据不再汇集管理时，可将对应数据归档，同时该调控数据编码状态置为当前无效，该机制为调控数据的全生命周期管理提供支持。

　　2.1.2 多源数据汇集技术

　　电力系统的海量数据集成技术已得到应用，例如电力营销系统数据集成、特高压电网调度自动化系统数据集成和配电网规划数据集成等［21-23］。

　　大数据平台采用广域分布式部署架构，数据取自SCADA、OMS、TMR等等多类源端调控系统以及调控云上的各类业务应用。运行数据源端部署于国调、网调、省调、地调以及外部系统接口端等，数据主要采用基于消息的多源数据分布式汇集方法，定义电力、电量、计划、预测、气象、告警、事件等各类数据的消息报文规范，并基于调控云广域消息总线完成分布式数据汇集。运行数据源端和大数据平台的基础模型均取自模型数据平台，由运行数据源端管理ID映射表，映射到源端调控系统的模型对象ID。在发送数据时，运行数据源端通过ID映射表读取源端调控系统对象数据并按照映射的云端对象ID上送至大数据平台。截止到2021年5月，调控大数据平台已经部署的运行数据源端已超过20种、300个。为保证数据汇集的可靠性和实时性，大数据平台融合KAFKA和FLINK等流计算技术，建立多消费者实例负载均衡等技术提高数据吞吐能力、可靠性和实时性。并针对广域环境下通讯中断或流程衔接不紧密导致数据断流的风险，进一步建立数据补发、补召机制，对特定时间点数据进行源端补发或者云端补召。考虑数据准确性和可靠性要求，大数据平台采用多源机制，针对重要一次设备的电力电量数据等由国网省多个源端系统采集及存储。

　　2.1.3 多源数据质量管理技术

　　能否实现数据到信息的挖掘，与数据质量密切相关。MIT等机构对数据质量管理开展了多项研究［24-26］，国内也有学者开展了电力数据质量表征、评估和提升技术研究［27-30］，大数据平台在此基础之上针对电网调控数据特点对数据检测与清洗技术进一步优化。在数据检测环节中，根据电网运行数据的特点对数据质量问题进行分类，依据数据的完整性、及时性、准确性等质量检测维度，针对每类质量问题定制质量诊断方法，并根据现有的问题和特征，预测未来的数据质量问题。在数据清洗环节，根据电网运行数据多源异构、规模大、更新速度快、价值密度低且时间序列性强的特点，完成全网多源数据处理、缺失值处理、异常值处理、合理值处理，并完成质量治理反馈。

　　全网多源数据处理策略是根据运行数据关联的电力调度数据对象所属调度管辖权默认选取，并在默认数据源数据质量异常时，自动选择其他正常数据源的数据。例如省级调度机构调管对象的数据优先选择对应来自省级数据管理机构的数据序列，当省级数据管理机构数据异常时选择国调或网调数据源。

　　缺失值处理采用均值或中位数等统计特征量替代、人工神经网络或决策树等机器学习方法补充方式处理，并在数据质量位中标记，便于人工干预修正。缺失值处理策略适用于调控数据中的典型连续型数值序列，例如电力电量的采集计算值、计划数据及预测数据等。

　　异常值处理针对由于人工错误、数据采集设备故障、通信信道故障或其他因素导致的和数据样本偏离正常值的问题进行修正。大数据平台设计监督式、非监督式和半监督式3类方式实现异常值处理。监督式由专家对异常数据进行标记训练，并在此基础上建立分类模型对其他数据进行判别；非监督式采用统计指标、距离指标等异常指标判断数据异常；半监督式基于部分专家标记异常数据样本，并与非监督式方法结合进行判定。异常值处理策略适用于典型连续型电气量，例如发电电力、受电电力等。

　　合理值处理基于电力系统本体特征，采用多个调控对象或者同一调控对象的多个属性进行综合分析识别数据质量异常，主要方法包括平衡分析、阈值分析、电力电量分析、潮流分析、状态估计等等。典型的例如通过变电站功率平衡分析，识别出线的有功数据异常；通过频率上下限阈值分析，识别频率值异常；通过电力数据的积分计算，识别电量数据异常；通过状态估计，辨识坏数据等等。合理值处理策略需要结合数据和业务特征开展，适用典型连续型电气量数据、气象数据和指标数据等等。

　　2.1.4 异构调控数据信息融合

　　大数据平台管理了调控领域的海量异构数据，既包括来自监控系统的运行数据，也包括调度管理产生的业务数据，以及来自外部的环境、经济等关联数据。这些来自不同业务系统源的数据常常具有关联性或互补性，通过对多领域多源数据融合，可以挖掘出传统方法无法获得的知识。大数据平台的数据融合主要采用多视角数据融合和基于相似性的数据融合方法。

　　多视角数据融合方法将与某一电网调度数据对象相关的多源异构数据进行融合，获得对该电网调度数据对象更为全面和准确的认知。以电网数据对象为例，目前已融合363类数据，将与特定电网对象相关的总加、电量、频率、拓扑、气象、日前计划、日前预测、故障、拉路、限电、错避峰等数据通过电网对象关联起来，这样既可以在时间分析上预测未来信息，也可以在因果分析上追溯故障影响范围等。为进一步强化多视角数据融合，大数据平台将典型的指标和统计特征值［31］纳入平台范畴，根据对象特性和业务需求，按时间、空间、目标、业务等不同维度，给出指标计算和特征值统计方法，为实时控制、设备检修、清洁能源消纳等电网运行管理提供量化依据。

　　基于相似性的数据融合方法针对2个调控数据对象存在一定相似性的现象，将一个调控数据对象的数据用于对另一个类似调控数据对象的数据分析。以电网特性分析为例，在分析外送型电网运行特征时，当某一地区电网历史数据不足以支撑数据挖掘算法时，可以选择与之相似的另一个电网对象的数据进行分析加权，得出支持度较高的分析结果。为进一步强化相似性数据融合，大数据平台建立标签管理机制，形成例如创新高、极热无风、柔性电网、外送型电网、潮汐型电网等若干典型标签，利用业务应用提供的关键词进行信息组织，提高电网业务数据聚类效率。

　　为进一步强化融合数据管理，大数据平台建立了主题管理机制，将主题数据按照业务主题域划分，面向用户提供主题概览、应用分析表管理、相关联数据查询等功能，以多层级可视化方式展示主题、应用、表类型和表，减少重复计算，实现数据共享。

　　2.2 异构数据库分层统一存储技术

　　如图 4所示，大数据平台采用异构数据库混合部署方案，形成软硬件分层解耦的混合存储模式，充分发挥各类数据库的技术优势，实现海量数据的全息存储与计算分析，提升平台整体的数据服务效率。

　　分布式存储系统

　　图 4 异构数据库统一存储与访问Fig. 4 Unified storage and access of heterogeneous data

　　针对离线数据，将其存储于易扩展的分布式存储系统，承担复杂的、时间窗口要求不高的、关联较低的批量任务处理与海量历史数据存储。针对在线数据，将百亿级以上时序数据存储于分布式列数据库（hadoop database，HBASE）中，承担时序数据快速检索任务；将千万以上的海量结构化数据存储于大规模并行数据库（massively parallel processing database，MPP）中，承担数据实时关联、汇总分析、查询与可视化任务；将千万以内的小规模结构化数据存储关系库（relational database，RDB）中，承担常规事务处理任务；将设备关联图谱、故障关联图谱等大规模关系网络数据存储于图数据库（graph database，GDB）中，承担图的匹配、关键字查询、分类、聚类和频繁子图挖掘等基于图论的数据挖掘任务。

　　为实现存储在HBASE、MPP、RDB、GDB中调控数据的透明访问，在服务接口层实现统一数据服务，数据服务基于后端管理的数仓目录元数据实现在线、离线数据异构存储访问的统一。数仓目录从物理层模型、电网对象模型、数据对象类型等3个维度，对数据库、数据表、表结构信息和调控数据编码等元数据信息进行统一管理，如图 5所示。

　　分布式存储系统

　　图 5 调控大数据多维存储模型示例Fig. 5 An example of a multi-dimensional storage model for regulating big data

　　2.3 面向调控对象的调控数据资产管理技术

　　数据作为资源，伴随着大数据时代支撑数据交换共享和数据服务应用的技术发展，不断积淀的数据才可以逐步发挥数据的价值［33-35］。大数据平台引入数据资产管理机制，定义调控数据资产及分类原则，实现数据资产管理功能，以支持调控数据全域范围内准确规划、定义和共享。

　　2.3.1 调控数据资产定义

　　数据资产是由企业拥有或者控制的，能够为企业带来未来经济利益的，以物理或电子的方式记录的数据资源［36］，如文件资料、电子数据等。在企业中，并非所有的数据都构成数据资产，数据资产是能够为企业产生价值的数据资源。

　　大数据平台中管理的调控数据资产包括电网模型数据、运行数据、文资数据和知识数据等，是具有调控业务分析挖掘价值的数据资源，具有准确、一致、规范的定义。调控数据资产按照数据特征分类管理，分类采用线分类法和面分类法［37］，分类维度包括业务属性、数据属性、时间属性。

　　2.3.2 调控数据资产管理技术

　　大数据平台的数据资产管理位于分析应用层和基础平台层之间，处于承上启下的重要地位。对上支持以价值发现为导向的应用开发，对下实现数据全生命周期的管理，目标是整合调控数据架构、设计数据模型，提高数据存储与操作的交互性，注重数据使用的安全合规性，以及数据价值的管理。调控数据资产管理技术主要包括数据资产规划、数据资产目录以及数据资产价值评估等。

　　数据资产规划对各类对象的数据资产进行规划管理，对数据资产类型和属性建模，规范定义数据的业务含义和物理含义，明确数据汇集来源范围，提升数据接入汇集、数据融合过程中的一致性。数据资产目录对各类调控对象的数据资产可视化展示，通过灵活便捷的数据统计查询，提高调控多源海量数据的访问效率，并通过数据血缘追踪数据的变化过程。数据资产价值评估从数据的热度、时效、质量和价值密度等多个维度评估管理数据的价值属性。

　　2.4 面向业务分析的数理方法引擎2.4.1 面向电网调控业务分析的主流算法

　　调控业务具有复杂程度高、准确性高、针对性强等需求，分析数据具有规模大、数据多样化、价值密度低等特点，本节综述了特征提取、关联分析、聚类分析、趋势预测、知识发现等主流算法特性及在电网规划、检修、建设、运行、监控等业务的适用性［38-39］。

　　1）特征提取。

　　特征提取是最大程度地删除特征数据中各种冗余属性，最终保留下有用的关键特征信息。特征提取算法常被用于电网稳定性评估、电力现货市场、电能质量分析、状态诊断等场景。目前，针对电力系统运行状态的分析，常用的特征提取方法主要有主成分分析、属性约简方法、混合互信息法等。

　　2）关联分析算法。

　　关联分析算法能够发现用传统的方法无法发现的项与项或属性与属性间的关系规律，当业务存在业务关联、因素属性较多及需要进行共性关联量化分析的时候，算法优势明显。因此关联分析算法可以被用于设备故障分析及诊断、电能消费分析、设备家族缺陷分析等场景，有助于实现数据价值挖掘。目前关联分析常用的算法有Apriori算法和FP-Growth算法。

　　3）聚类分析算法。

　　聚类分析是一种探索数据分组的统计方法，协助用户进行更好的理解数据类别，当业务存在样本缺乏明确的属性、需要进行探索数据分类的时候，算法优势明显。如大规模电网系统负荷数据进行多维度、快速的分类，从而有效辨识系统负荷特性，协助制定合理和友好的负荷管理策略。聚类分析算法可以被用于用电行为特性分析、新能源发电预测、负荷分析等场景，为挖掘潜在的用户、新能源及可控负荷提供数据支撑。常用的聚类算法包括层次化聚类算法、划分式聚类算法、基于密度及网格的聚类算法等。

　　4）预测算法。

　　预测算法主要建立基于历史、实时、外部环境等数据信息的预测模型，实现预测精度的提升，使预测的过程更为智能化、科学化，以预测的精确化支撑业务分析的精细化。因此预测算法可以被用于电力负荷预测、新能源发电预测、故障分析、成本预算、稳定性评估等场景，为对应业务场景提供数据支撑。目前常用的算法包括回归分析、时间序列模型、神经网络、随机森林等。

　　2.4.2 数理方法引擎

　　考虑电网一体化及各类业务数据分散分布的特点，针对多源异构数据在时间维度、空间维度、应用维度等的关联性，构建适用于电网调控运行的数理分析算法引擎，通过可视化、流程化的算法组件模式，实现更友好更便捷更高效地数据分析交互任务。

　　数理分析算法引擎的功能包括数据源管理、组件管理、工程管理、模型管理、任务调度管理，通过数据库接口、离线文件方式获取待分析数据，通过拖拽组件的方式进行算法任务编排，将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接，通过任务调度实现数据源及算法工程的定时运行。

　　数理分析算法引擎融合多类算法框架与编程语言，解决了业务人员挖掘分析算法编程成本高、算法验证与比较过程复杂的问题，在工程应用过程中，减少数据挖掘分析验证与试错周期。

　　3 工程应用

　　大数据平台已经在国调、天津、四川、冀北等调控云工程中示范应用，实现了上述关键技术的部署测试，已经开展并完成了35kV以上电网运行数据的汇集与融合，提升了海量运行数据的质量，提升了大数据分析加工能力，实现了运行数据共享服务。

　　1）建立了调控数据全面汇集的技术体系。

　　截止到2021年5月，采用资产化建模形成600多个数据资产种类，汇集数据总量达到1.46万亿条，数据历史可追溯至2010年。已经汇集的运行数据包括电力、电量、计划、预测、告警、故障、气象等，已经汇集的文资数据包括接线图、标准制度等。通过持续开展的数据资产化以及数据汇集工作，可以逐步解决调控运行信息在各级调度机构分布分散管理，数据存储时间长短不一、缺乏统筹规划、数据冗余重复等问题。

　　2）提升了全网运行数据质量。

　　大数据平台在通用检测算法基础上，结合了电网业务规则，形成28类校验规则，并依据数据的一致性、完整性、及时性、准确性等质量检测维度构建可配置、易扩展的电网全景数据校验规则库，每天定期对运行数据质量进行评估，通过多源数据的关联互校核和长时间尺度海量遥测数据的综合评估方法提升了数据问题检出能力。国分大数据平台日均汇集数据约18亿条，通过算法规则改进，日检出问题从6450个提高到6838个，问题检出率提高了6.02%。进一步通过数据采集、融合、校验、修正的全链路闭环管理体系运作，全面提升了全网运行数据质量。

　　3）提升了调控数据分析加工能力。

　　在基础指标算法方面，目前国分大数据平台已经加工形成主变负载率、线路可用率、频率合格率、潮流越限运行累计时间和机组利用小时数等200余个常用调控运行指标，并建立了这些指标的涵义、计算方法、计量单位等标准。

　　在标签算法方面，目前国分大数据平台已经形成电网负荷创新高、发电创新高、线路重载、线路越限等30余个标签，对快速进行电网和一次设备长周期特性分析提供支持。

　　在分析挖掘应用方面，实现了降温及采暖负荷分析、短期系统负荷预测、停电窗口期智能编排等应用。

　　4）实现了调控数据应用服务的共建共享。

　　大数据平台通过数据服务接口调用的形式将各类调控数据提供给上层应用。

　　数据服务分为原生数据服务和衍生数据服务两大类。进一步按照数据类别细分，原生数据服务包括电力容器生熟数据服务、一次设备生熟数据服务、电量类生熟数据服务、电力容器特征值数据服务、一次设备特征值数据服务、检修计划数据服务、告警类数据服务、负荷预测类数据服务、电能计划类数据服务等；衍生数据服务包括指标定义与查询服务、标签生成服务与标签查询服务、交流线路指标数据服务、变压器指标数据服务、发电厂指标数据服务、发电机指标数据服务等。截止2021年5月，大数据平台已经建设36类数据服务，实际运行测试平均服务响应时间不超过630ms，并实现了国分与省级大数据平台之间的服务互通，采用全网通用数据对象ID即可直接获取到所需的运行数据，实现全网海量运行数据按需服务、实时共享。

　　4 结论

　　电网调控大数据平台依托调控云平台构建，形成主导、协同节点两级的“物理分布、逻辑统一”部署模式。针对调控大数据兼具工业自动化数据、管理信息和金融数据特性，在模型数据平台实现电网模型统一管理的基础之上，引入数据资产管理的方法，建议全网唯一的数据编码，实现全网调控数据资产统一管理，明确数据标准、数据范围、数据治理方法等。针对海量数据的全息存储与计算分析需求，设计异构数据库混合存储模式，充分发挥各类数据库的技术优势，并在服务接口层通过统一数据服务实现数据透明访问，提升平台整体的数据服务效率。针对自动化运行数据周期采样和多源管理的特点，引入多源数据汇集、多源数据清洗和异构融合技术，解决多源调控数据集成与融合问题，提高了调控数据的完整性、一致性、规范性，为调控智能分析应用提供高质量的数据支撑。

　　目前该平台在国网省调控中心进行试点建设，在调控数据全面汇集、数据质量持续提升、数据分析手段持续丰富、数据应用全面共建共享等方面取得突出成效。以调控大数据平台为基础，积极探索大数据技术在提升调度业务智能化水平潜在能力，从大电网安全管控、市场化运行、清洁能源消纳、源网荷储调度等调控核心业务场景开展大数据技术的实践与应用，是下一步需要重点研究的内容。

　　审核编辑：黄飞

打开APP阅读更多精彩内容