×

基于局部孤立系数的孤立点挖掘

消耗积分:0 | 格式:rar | 大小:156 | 2009-08-11

分享资料个

提出了一种基于局部孤立系数(LOC)的孤立点挖掘算法。该算法是对基于局部稀疏系数(LSC)孤立点挖掘论文中局部稀疏率和局部稀疏系数计算的一种改进。实验表明,LOC 算法在发现孤立点方面比LSC 算法更高效。
孤立点检测在数据挖掘领域是一项重要的挖掘技术。孤立点检测的研究对象是数据集中
偏离绝大多数对象的很小一部分数据。在许多KDD 应用中,研究孤立点比研究聚类更有用、更重要。因为,在某些应用领域中研究孤立点的异常行为能发现隐藏在数据集中更有价值的知识。诸如,在欺诈探测中,孤立点可能预示着欺诈行为;在市场分析中,可用于确定极低或极高的收入的消费行为;在医疗分析中,用于发现对多种治疗方式的不寻常的反映;因此,孤立点检测是一个重要的数据挖掘任务,称为孤立点挖掘或异常挖掘。孤立点挖掘可以描述如下:给定一个n 个数据点或对象的集合,及预期的孤立点的数目k,发现与剩余的数据相比是显著相异的、异常的或不一致的头k 个对象[1]。
在数据挖掘中,孤立点检测算法大体上可分为以下几类:统计学方法,基于距离的方法,基于偏离的方法和基于密度的方法。
基于密度的方法能够挖掘出比基于距离异常算法所不能识别的一类异常数据—局部异
常。局部异常观点摈弃了以前所有的异常定义中非此即彼的绝对异常观念,这更加符合现实生活中的应用。近年来,一些研究人员提出局部孤立点探测[2,3,4,5],就是对每个对象赋予某个度,这个度决定了这个对象成为孤立点的程度。每个点的孤立程度只与它和周围点的距离有关,而与数据集中其他的点没有任何关系,这就体现了“局部”的特性。局部稀疏系数(LSC)就是其中一种,Malik Agyemang 提出的基于局部稀疏系数 (LSC)孤立点挖掘[4]算法的主要思想是对数据集中每个对象,计算出离它最近K 个对象的距离,并从中选出最大的距离作为该点的K-距离,对数据集中每个对象计算出与它的距离不大于该对象K-距离的邻近对象形成一个集合,然后计算每个对象与其对应集合的所有对象之间平均距离的反比,即局部稀疏率,最后计算集合内所有对象的局部稀疏率之和与该点的局部稀疏率比值的平均比率,即局部稀疏系数(LSC);根据每个对象的LSC 值从大到小的顺序排列整个数据集,并把前n 个对象作为孤立点。
在局部稀疏系数(LSC)算法中,需要计算数据集中每个对象的局部稀疏率和局部稀疏
系数,当数据集很大时,计算每个对象的局部稀疏率和局部稀疏系数耗费很大的计算量。本文提出了基于局部孤立系数(LOC)孤立点算法,它是对LSC 算法的改进,LOC 算法的主要思想是:对于数据集中每个点,计算出离它最近K 个对象的距离并选出其中最大距离作为该点的K-距离,并把最近K 个距离的和作为该点的局部距离之和;然后计算每个点的局部距离之和与它K-距离内每个对象的局部距离之和的总和平均值的比率(LOC)作为该点的孤立因子,按LOC 值从大到小的顺序选出前n 个作为孤立点。本文给出了LSC 算法和LOC 算法的实验结果,实验结果表明LOC 算法在发现孤立点方面比LSC 算法效率高。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !