为了提髙关联规则挖掘效率’文中提出了一种适用于 Spark平台的并行仳FP_ growth关联规则挖掘方法。首先,利用Spark平台在分布式系统中的所有节点的内存RDD中完成遍历扫描运算,得到频繁集,以便生成 FP Table并更新FP_Tree然后,引入时间序列来预测待挖掘的项目集,以便实现分布式系统中的所有节点能够均衡分担挖掘任务,从而充分利用各节点的FP_Tre遍历功能,获取FP_ growth关联规则挖掘结果。实验结果显示,相比单机情况,并行化FP_ growth关联规则挖掘在效率方面提高了约60%。经过负载均衡处理后的 FP growth关联规则挖掘的效率更高,提髙了约14%,这说明各节点遍历仼务的分配更均衡,并行化程度更高。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !