针对异常检测中异常数据与正常数据的比例严重不平衡导致决策树性能下降的问题,提出了C4.5决策树的三种改进方法一C4.5 +δ、均匀分布熵( UDE)和改进分布熵函数(IDEF)。首先,推导了C4.5算法中属性选择准则会倾向于选择偏斜划分的属性;然后,分析了偏斜划分使得异常(少数类)检测精度下降的原因;其次,分别通过引入缓和因子、均匀分布熵或替换分布熵函数改进了C4.5算法的属性选择准则一 信息增益率;最后,利用WEKA平台和NSL-KDD数据集对改进的决策树进行验证。实验结果表明,三种改进方法均能提高异常检测精度。其中,相比于C4.5,C4.5 +7、UDE和IDEF算法在KDDTest-21数据集上的少数类检测精度(灵敏度)分别提高了3.16、3. 02和3.12个百分点,均优于采用Renyi熵和Tallis熵作为分裂准则的方法。此外,利用三种改进的决策树检测工业控制系统中的异常,不仅可以提高异常的查全率还能减小误报率。
异常检测是指从某个系统的日常数据中识别非预期模式,即异常数据。异常通常由恶意行为或违规操作引发,因此异常检测技术广泛应用于网络安全、故障检测等领域。
异常检测可以视为一-种特殊的分类问题,即分离目标数据集中的正常数据与异常数据。因此,绝大多数基于机器学习的分类方法,如神经网络、支持向量机、决策树等,都可以应用于异常检测。然而异常检测面临数据不平衡问题,即目标数据集中异常数据与正常数据的分布是不平衡的,其中异常数据一。般远远少于正常数据。数据不平衡问题在医疗诊断、信用卡诈骗检测,银行风险管控、系统故障检测等应用中十分常见。在传统分类问题中,整体准确度由不同类别的准确度加权组成,因此多数类的准确度对整体准确度的影响要远大于少数类。在传统方法中,分类器会倾向于保证多数类的准确度而牺牲少数类的准确度,导致少数类的漏报率较高。然而在很多异常检测的现实应用中将异常(少数类)误判为正常(多数类)的代价要远远高于相反的情况,因此需要尽可能地检测出异常,降低漏报率。例如,在癌症的诊断中,将癌症(少数类)患者误诊为健康(多数类)的危害要远大于将非癌症患者误诊为癌症的危害,所以要保证检测结果为阳性时尽可能地覆盖真正的癌症患者。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !