基于局部孤立系数的孤立点挖掘

消耗积分:3 | 格式:rar | 大小:156 | 2009-08-11

分享资料个

提出了一种基于局部孤立系数（LOC）的孤立点挖掘算法。该算法是对基于局部稀疏系数（LSC）孤立点挖掘论文中局部稀疏率和局部稀疏系数计算的一种改进。实验表明，LOC 算法在发现孤立点方面比LSC 算法更高效。
孤立点检测在数据挖掘领域是一项重要的挖掘技术。孤立点检测的研究对象是数据集中
偏离绝大多数对象的很小一部分数据。在许多KDD 应用中，研究孤立点比研究聚类更有用、更重要。因为，在某些应用领域中研究孤立点的异常行为能发现隐藏在数据集中更有价值的知识。诸如，在欺诈探测中，孤立点可能预示着欺诈行为；在市场分析中，可用于确定极低或极高的收入的消费行为；在医疗分析中，用于发现对多种治疗方式的不寻常的反映；因此，孤立点检测是一个重要的数据挖掘任务，称为孤立点挖掘或异常挖掘。孤立点挖掘可以描述如下：给定一个n 个数据点或对象的集合，及预期的孤立点的数目k，发现与剩余的数据相比是显著相异的、异常的或不一致的头k 个对象[1]。
在数据挖掘中，孤立点检测算法大体上可分为以下几类：统计学方法，基于距离的方法，基于偏离的方法和基于密度的方法。
基于密度的方法能够挖掘出比基于距离异常算法所不能识别的一类异常数据—局部异
常。局部异常观点摈弃了以前所有的异常定义中非此即彼的绝对异常观念，这更加符合现实生活中的应用。近年来，一些研究人员提出局部孤立点探测[2，3，4，5],就是对每个对象赋予某个度，这个度决定了这个对象成为孤立点的程度。每个点的孤立程度只与它和周围点的距离有关，而与数据集中其他的点没有任何关系，这就体现了“局部”的特性。局部稀疏系数（LSC）就是其中一种，Malik Agyemang 提出的基于局部稀疏系数 (LSC)孤立点挖掘[4]算法的主要思想是对数据集中每个对象，计算出离它最近K 个对象的距离，并从中选出最大的距离作为该点的K-距离，对数据集中每个对象计算出与它的距离不大于该对象K-距离的邻近对象形成一个集合，然后计算每个对象与其对应集合的所有对象之间平均距离的反比，即局部稀疏率，最后计算集合内所有对象的局部稀疏率之和与该点的局部稀疏率比值的平均比率，即局部稀疏系数（LSC）；根据每个对象的LSC 值从大到小的顺序排列整个数据集，并把前n 个对象作为孤立点。
在局部稀疏系数（LSC）算法中，需要计算数据集中每个对象的局部稀疏率和局部稀疏
系数，当数据集很大时，计算每个对象的局部稀疏率和局部稀疏系数耗费很大的计算量。本文提出了基于局部孤立系数（LOC）孤立点算法，它是对LSC 算法的改进，LOC 算法的主要思想是:对于数据集中每个点，计算出离它最近K 个对象的距离并选出其中最大距离作为该点的K-距离，并把最近K 个距离的和作为该点的局部距离之和；然后计算每个点的局部距离之和与它K-距离内每个对象的局部距离之和的总和平均值的比率（LOC）作为该点的孤立因子，按LOC 值从大到小的顺序选出前n 个作为孤立点。本文给出了LSC 算法和LOC 算法的实验结果，实验结果表明LOC 算法在发现孤立点方面比LSC 算法效率高。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

人形机器人执行、感知系统技术及市场解析
2026-05-20 300次下载

下载
瑞芯微RK3588系列开发板-产品资料更新-2026.06
2026-06-08 6次下载

下载
OK3506-S12 Mini开发板产品资料-2025.10
2026-06-08 3次下载

下载
ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册
2026-06-10 3次下载

下载
FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V
2026-05-22 2次下载

下载
LZC9300A 高性能恒压恒流碳化硅驱动控制芯片
2026-06-06 2次下载

下载

基于局部孤立系数的孤立点挖掘

解决办法：虚拟机状态显示孤立的，打开电源失败

基于数据挖掘与网络药理学的肝癌中药处方规律

基于终身机器学习的主题挖掘评分和评论推荐模型

面向机器人的三维形状多层次局部匹配算法

文本挖掘之概率主题模型综述

基于数据挖掘等的中医临床治疗肝癌处方用药参考

一种改进的局部和相似度保持特征选择算法

基于判断聚合模型的数据挖掘分类算法

私有二进制协议中变长域的格式挖掘综述

分布式存储系统的局部修复码分析

基于全局块与局部块协作的滤波目标跟踪算法

一种多维时间序列汽车驾驶异常点检测模型

基于一维局部三值模式的脑电图癫痫信号检测

基于局部熵拟合与全局信息的改进活动轮廓模型

借助局部实体特征的事件触发词抽取方法

基于元路径选择的跨社交网络链路预测方法

基于元路径选择的跨社交网络链路预测方法

基于数据挖掘的核医学文本关联规则挖掘方法

针对APP用户评论数据的软件需求挖掘方法

结合局部特征融合的时间卷积网络方法

集成流挖掘和图挖掘的内网异常检测方法

数据挖掘在恶性肿癌与工业污染之间的应用

利用采样安全系数的多类不平衡过采样算法

命题逻辑公式间的Jaccard相似度等及其应用

一种带有局部坐标约束的半监督概念分解算法

依据待分类实例显著局部特征的懒惰式分类模型

基于优化局部抑制的轨迹隐私保护算法

融合递减策略与局部增强机制的IYSGA算法

基于局部区域特征选择的内容一致性行人重识别算法

一种多幅点云数据与纹理序列自动配准方法

一种加权组合图像去噪模型的设计与实现

从阻抗匹配到参考平面：PCB打样满足信号完整性的工程底线

NVIDIA GTC 2026展示推动物理AI时代的虚拟世界

SAE J1939转Profinet 协议转换网关实现智能液压挖掘机精准作业与节能运行

MOSFET-零温度系数点ZTC（Zero Temperature Coefficient）

开关电容加法器的电路详解

数大数据时代的关键：融合数据治理与AI为企业增值_光点科技

数字PLL孤立频点失锁是什么原因？又应该怎么解决呢？

传热系数和导热系数的关系

***巨头CEO:孤立中国没有希望 实际上会削弱西方自己

机器学习与数据挖掘的区别 机器学习与数据挖掘的关系

美国尝试将大陆芯片产业“孤立”？

接插件的基础知识及应用

中值滤波去除图像上存在孤立的噪声点

局部放电以及为什么应该检测局部放电？

智慧城市成功的七个基础

一个国际团队开发出了一种光学量子开关

瓴盛重磅打造核心平台+产业生态，加速AIoT万千应用场景落地

IBM Global Real Estate使用AI帮助提供更好的工作场所体验

华为云数据使能解决方案助力企业实现数据驱动运营

高集成化是LED显示面板技术发展的主旋律

Linux Kernel 5.7内核软盘支持补丁，不怕无法读取了

如何挖掘工业互联网的大数据价值

孤立的工业物联网项目有可能改变整个企业

去中心化的互联网怎样可以到达

企业区块链是怎样的一个情况

柔性电路板表面电镀你了解的有多少

美联储降息会对数字货币造成影响吗

局部放电的危害_局部放电产生原因

人工智能非孤立专业 不宜另起炉灶

35所高校新增人工智能本科专业 专家：人工智能非孤立专业

下载排行榜

人形机器人执行、感知系统技术及市场解析

瑞芯微RK3588系列开发板-产品资料更新-2026.06

OK3506-S12 Mini开发板产品资料-2025.10

ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册

FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V

LZC9300A 高性能恒压恒流碳化硅驱动控制芯片

***巨头CEO:孤立中国没有希望实际上会削弱西方自己

机器学习与数据挖掘的区别机器学习与数据挖掘的关系

人工智能非孤立专业不宜另起炉灶

35所高校新增人工智能本科专业专家：人工智能非孤立专业