×

基于数据划分和融合策略的并行DBSCAN算法

消耗积分:2 | 格式:rar | 大小:1.15 MB | 2018-02-08

分享资料个

  大数据是近年来计算机领域兴起的热点研究方向,通过聚类可以解决诸如机器学习、数据挖掘、生物信息分析等诸多大数据领域的问题。聚类是研究分类问题的重要方法,通过聚类分析可以将样本中具有相同或者相似特征的项归为一类,而将不具有该特征的项排除在外。主流的聚类方法包括基于划分的聚类方法,如K-means;层次聚类方法,如CURE和BIRCH等;基于统计模型的方法,如EM算法等;基于密度的方法,如DBSCAN,OPTICS等。在基于密度的方法中,DBSCAN是较为典型的一种,它以超球状区域内数据对象的数量来衡量此区域密度的高低,能够发现任意形状的聚类并有效识别噪声点。

  在并行RDD-DBSCAN算法的数据划分和区域查询过程中会对数据集进行重复访问,降低了算法效率。为此,提出基于数据划分和融合策略的并行DBSCAN算法(DBSCAN-PSM)。利用KD树进行数据划分,实现数据分区与区域查询步骤的合并,从而减少数据集的访问次数以及降低I/O过程对算法效率的影响。采用判定数据点自身属性的方式,对标注为边缘点的数据进行融合,避免全局标记的额外时间开销。实验结果表明,DBSCAN-PSM算法相比RDD-DBSCAN算法可节省18%左右的运行时间,适用于处理海量数据聚类问题。
 

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !