×

基于距离和密度的并行二分K-means算法

消耗积分:0 | 格式:pdf | 大小:1.16 MB | 2021-03-22

分享资料个

  K- means算法初始中心点选择的随机性以及对噪声点的敏感性,使得聚类结果易陷亼局部最优解,为获得最佳初始聚类中心,提岀一种基于距离和密度的并行二分K- means算法。计算数据集的平均样本距离,根据数据点之间的距离计算数据的权重,选择最大权重数据点作为第一个中心点,小于平均样本距离的数据点不参加下次聚类,将剩余数据点的权重与中心点距离相乘,选择值最大的数据点作为下一个中心点,得到两个中心点后按照距离对数据进行分配,将每个中心点代表的类分为两类后在每类上继续重复上述步骤。通过模仿细胞分裂的方法对数据进行切分,构建一棵满二叉树,当叶子结点数超过类别数k时停止聚类,合并叶子结点得到k个初始聚类中心执行K- means算法。在UCI公开数据集上进行测试,结果表明,对比传统K- means算法、 Canopy- Kmeans算法分K- means算法、WK- means算法、MWwK- means算法和DCK- means算法,该算法效率更高,其有较好的聚类效果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !