针对大数据下基于密度的聚类算法中存在的数据网格划分不合理,聚类结果准确度不高以及并行化效率较低等问题,提出了基于 Mapreduce和加权网格信息熵的 DBWGIE-MR算法。首先提出自适应网格划分策略(ADG)来划分网格单元;其次提出邻居网格扩展策略(NE)用于构建毎饣数据分区的加权网格,以此提高聚类效果;同时提出加权网格信息熵策略(wGIE来计算网格密度以及密度聚类算法的ε邻域和核心对象,使密度聚类算法更适用于加权网格;接着结合 Mapreduce计算模型,提岀并行计算局部簇算法( COMCOREMR),从而加快获取局部簇;最后提出了基于并查集的并行合并局部簇算法( MECORE-MR),用于加快合并局部簇的收敛速度,提升了基于密度的聚类算法对局部簇合并的效率。实验结果表明, DBWGIE-MR算法的聚类效果更佳,且在较大规模的数据集下算法的并行化性能更好。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !