压缩模糊K-近邻( CFKNN)算法仅适用于中小数据环境,且其样例选择采用静态机制,导致算法不能对阈值进行动态调整从而选岀最优样例。为此,对 CFKNN算法进行改进,将其扩展到大规模数据环境,提出分别基于Mapreduce和 Spark的2种大规模压缩模糊K-近邻算法。在样例选择阈值设置方面,引人动态机制,使得所选样例更具代表性。在具有7个数据节点的大数据平台上进行实验,结果表明,与 CFKNN算法相比,所提2种算法具有更高的分类精度和加速比。2个平台相比, Mapreduce产生的中间文件数目多于 Spark,而 Spark在运行时间和同步次数上优于 Mapreduce。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !