基于机器学习的城市电梯困人故障原因预测方法研究

描述

摘 要 :为实现电梯困人故障的应急处置快速响应,缩短现场故障原因排查时间,促进排障模式由人工经验向数据支撑下的智能诊断转变,利用梯度提升树算法(GBDT)建立电梯故障原因预测模型。经过数据清洗和特征提取,以 2015—2020 年南京市累积电梯故障数据进行模型训练。与真实值对比后的预测结果表明,前三位故障原因实时预测准确率可达 81%,评估指标优于同类型机器学习算法。GBDT 模型预测性可适用于电梯困人故障数据稀疏、特征量不明显的预测问题。

0 引 言

电梯与人们的日常出行紧密关联,已成为特种设备安全工作的着力重点和关键一环 [1]。如何在降低设备故障停梯率的同时高效应对故障,是电梯安全监管和应急处置中亟须解决的核心问题。大数据浪潮下,金融、工业、公共服务等领域已有大量成功应用案例 [2-5]。大数据在特种设备安全监管与应急救援中的应用场景十分丰富 [6],如救援路径规划、救援站点布局优化、易发故障电梯属性归纳等。对特种设备故障大数据进行挖掘分析,可以尽早发现设备故障隐患,排查治理甚至预测故障发生概率,进而为故障处置和监管决策供参考。

目前,关于电梯故障原因预测的研究多集中于部件特定故障的诊断 [7-10],主要基于少样本(数百台)设备的物联网监测数据。王丽园 [11] 建立了多种电梯运行数据分析模型,用异常分类模型实时监控电梯状态。沈志鹏 [12] 将循环神经网络和扩张因果卷积网络相结合,提出一种新的时间序列预测模型,预测电梯部件未来是否发生异常。朱明等 [13] 建立了电梯故障率受环境温度、湿度影响的 GM(1,N)预测模型。

支猛等 [14] 提出了一种基于 BP 神经网络和遗传算法的预测模型,对电梯门系统故障进行预测。姜宇迪等 [15] 提出了基于长短期记忆网络自编码器和时间序列回归模型的电梯制动器监测和故障预警方法。胡海博 [16] 基于社区电梯系统历史维保数据,利用粒子群聚类预测模型,实现了电梯小样本数据故障预测。

自 2015 年起,在南京、杭州、广州等地的示范带动下,电梯应急处置服务平台在全国范围内推广建设。在履行科学调度、快速解救的首要职能之外,平台积累了大量设备的困人故障数据,蕴藏了丰富故障特征,具有数据分析的基础和挖掘价值。本文基于南京市 2015—2020 年 41 414 起电梯困人故障数据,构建故障特征数据集,利用梯度提升树算法(GBDT)建立电梯故障原因预测模型,以 CART 决策树为基学习器,预测下一次故障时最可能的故障原因,并与其他集成学习方法进行对比,验证方法的效果与优势。

1 预测模型构建流程及数据预处理

电梯故障原因数据属性为标称数据,其预测可认为是一个分类问题。电梯故障原因预测模型流程如图 1 所示。模型包括 :电梯故障初数据集数据预处理 ;基于预处理后数据,提取电梯故障相关特征 ;选取分类算法,进行训练建立模型 ;评估模型性能 ;保存最优模型 ;当电梯再次出现故障时,提取相关数据特征输入最优模型,预测故障原因。

机器学习

数据预处理包括处理缺失数据、归一化数值类特征、集中筛选初数据集中可能指向故障原因的数据项。对缺失数据,标称属性和数值属性两种不同数据属性采取的预处理方式不同 :标称属性,缺失数据用值“无”补全 ;数值属性,如电梯速度,缺失数据用该数据属性值的均值表示,并进行归一化处理。

41 414 起电梯困人故障初数据集包含 25 个应急调度数据项和 10 个电梯基本数据项。初步剔除接警响应时间、救援完成时间、电梯档案号、设备注册登记号等明显非关联项后,保留 19 个与电梯故障原因相关的数据项,形成的故障特征数据集见表 1 所列。

机器学习

2 梯度提升树预测模型构建

2.1 梯度提升算法框架

梯度提升(Gradient Boosting)分类算法,是一种集成学习思想,由 Friedman[17] 于 1999 年提出,梯度提升假设模型形式为 :

机器学习

式中:P 为模型参数;h(x; αm) 为基学习器;αm 为弱学习器参数;M 为迭代次数;βm 为每个基学习器权重。

模型损失函数的数学期望为 :

机器学习

在已有包含 N 个样本点的训练数据集 {(x1, y1), ..., (xN,yN)} 上计算模型的损失函数值,并使损失函数值最小,可得最优参数 P 为 :

机器学习

采用前向分步算法,每一步学习一个基学习器及其权重值,逐渐逼近式(3)的最优解。假设当前模型为 Fm-1,则在第 m 次迭代学习的基学习器 fm,由拟合损失函数的负梯度在当前模型 Fm-1 的值所得。即第 m 次迭代学习的参数 {βm,αm} 能够使 fm 的方向是 Fm-1 损失函数下降最快的方向。对每一个数据点 xi 都可以得到一个梯度下降方向 gm(xi),见式(4),和一个完整的梯度下降方向,见式(5):

机器学习

为使 fm 能够在梯度下降的方向上使用最小二乘法,分别由式(6)、式(7)得到最优 αm 和 βm :

机器学习

最终合并至模型中,可得 :

机器学习

梯度提升算法框架如下所示 :算法 1 :数据项框架

输入 :训练数据集 {(x1, y1), ..., (xN, yN)},损失函数 L(y,F(x)),迭代次数 M。

输出 :模型 F(x)。

1. 初始化模型 :机器学习

2. 对 m = 1, ..., M :

(1)计算负梯度方向机器学习

(2) 学习一个基学习器 hm(x; αm), 其 中 :机器学习

(3) 计算最优梯度下降步长, 其 中 :机器学习

(4)更新模型 :机器学习

3 :输出模型 F(x)。

2.2 梯度提升决策树算法

梯度提升本质为一个算法框架,放入已有分类或回归算法后,可进行更复杂的决策分类计算。本文在梯度提升框架下,提出以梯度提升树(Gradient Boosting Decision Tree,GBDT)构造电梯故障预测模型。GBDT 引入决策树作为梯度提升框架中的基模型(即基学习器),算法中所有决策树的运算结论累加即为最终结果。这种不断迭代的决策树算法,比单一决策树具有可区分多种不同特征和特征组合的天然优势,鲁棒性好,易并行化,是可拟合复杂非线性函数的有力工具。

CART 决策树 [18](Classification and Regression Trees,CART)同时支持连续值和缺失值的处理,适用于不同属性的电梯故障数据。本文利用回归 CART 决策树作为梯度提升算法的弱分类器,基于平方误差最小化准则实现特征选择,生成二叉树,表现形式为 :

机器学习

式中:J 为 CART 决策树的叶节点数目;{bj}1J 为决策树叶子节点的值或类标签;Rj 为第 j 个叶节点;{Rj}1J 为决策树中不重叠的区域,这些区域覆盖整个样本集;I(x∈Rj) 为指示函数。

若输入数据 x 属于叶节点 Rj,则返回 1,否则返回 0。在梯度提升算法框架中,用式(9)替换使式(4)更新模型步骤中的 h(x; αm),可得 :

机器学习

式中,{Rjm}1J为第 m 次迭代得到的 CART 决策树中第 j 个节点。

令 rjm=βmbjm,式(10)可改写为 :

机器学习

经式(12)优化,可得 rjm 最优值 :

机器学习

决策树每个叶节点包含的样本数据不重叠,则 rjm 可用式(13)优化 :

机器学习

由此将 CART 决策树作为梯度提升框架中的基学习器,可迭代完成分类预测算法模型构建。

3 预测模型计算实验

3.1 模型训练

41 414 条电梯故障工单初始数据包含 6 类历史困人故障原因,分别是安全保护装置、门系统、曳引系统、控制系统、电气系统和外部原因(停电、机房温度过高等)。故障预测模型以初始数据训练预测模型,针对故障电梯求解 6 类原因的分类问题。

实验使用 XGBoost 工具 [19] 10 折交叉验证的方式训练模型,迭代中设置 early stopping 的方式 [20] 防止过拟合。在 Ubuntu 14.04LTS 操作系统的 Intel(R) i7-370 3.40 GHzCPU,4 GB 内存的 PC 机上运行算法,测得模型训练迭代至最优预测模型耗时 6.17 s,通过最优模型预测一个新样本耗时 0.011 s,可知模型能够满足在应急状况下的实时快速预测要求。GBDT 算法迭代 100 次,每次迭代后交叉验证结果如图 2 所示,迭代至 70 次时训练结果达到最优,模型准确率为 42.04%。

机器学习

3.2 模型评估

采用精确率(precision)、准确率(accuracy)、召回率(recall)和 F1 值等常用评价指标 [21] 评估算法模型的可靠性与准确性。以机器学习中 3 种经典分类算法CART决策树算法、支持向量机(SVM)算法[22] 和随机森林(Randomforests)算法 [23] 为对比算法,分别构建分类器,各算法的评价指标见表 2 所列。以 CART 决策树为弱分类器的 GBDT 算法所构建的电梯故障原因预测模型,精确率、准确率、召回率、F1值指标均好于其他分类算法。

机器学习

3.3 模型预测

模型训练中交叉验证后,GBDT 算法模型首位原因预测准确率约为 42%。而现实场景中,模型预测的结果可在应急调度时提前告知救援人员最有可能的几个原因(从首位原因开始按可能性大小排列),引导现场排障。因此,预测模型可设置为,如果预测出最有可能的 k 个原因(Top-k)包含实际的故障原因时,则表示预测准确。根据 2013—2018 年南京市故障数据,预测 2019 年 7 月电梯故障原因,以同时间626 条实际故障原因为预测准确率基准,验证模型准确性。

图 3 所示为 k=1 ~ 6 时的预测准确率。其中,k=1 时准确率为 42.04%,说明仅给出 1 项最有可能原因时准确率不足50% ;随着 k 增大,准确率会不断增高,在 k=3 时准确率最高达 81%,即预测可给出最有可能的 3 类故障原因,此时基本可锁定真实故障原因。在当前初始数据量并不十分充分的训练条件下,使用 GBDT 算法可明确排除一半以上的故障原因,证实了方法的有效性。

机器学习

4 结 语

(1)清洗电梯应急处置场景下的原始故障缺失数据,预处理可分为数值属性和标称属性,所有数值类属性数据需进行归一化处理。

(2)CART 算法生成的决策树模型是二叉树,运算效率较多叉树高,作为需要不断迭代多棵树的 GBDT 算法的基学习器,二者结合可保证精度并兼顾效率,适合处理目标变量(电梯故障原因)为标称属性的离散型分类问题。

(3)GBDT 集成学习算法对电梯故障原因预测有效可行,模型评估效果好于其他常见机器学习分类算法。其通过迭代获得残差来不断逼近真实预测值的特点,能够获得满意预测结果(尤其在推荐 Top-k 个预测结果时),可为应急处置时快速锁定故障部位提供参考。

(4)4 万左右的故障初始数据数量尚不能认为是真正意义的大数据量级。有效提升首位故障原因的预测准确率,仍需在更广地域范围和更大时间跨度内进一步汇集数据,富集数据池,并添加构建更合理的故障特征。

审核编辑 :李倩

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分