×

基于MapReduce的聚类算法在大数据运行速度

消耗积分:0 | 格式:rar | 大小:1.30 MB | 2017-11-10

分享资料个

  随着信息技术的进步以及信息化社会的发展,出现各式各样的海量数据,大量的数据累积在数据库和数据仓库中,理解它们已远远超出了人的能力。如何将这些堆积的“数据”转变成人们理解的“知识”,数据挖掘技术应运而生o”。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的、看似杂乱的实际数据中,提取隐含在其中的、人们不知道的,但又是潜在有用的信息和知识的过程。聚类分析是一项非常实用的数据挖掘技术。但面对庞大的数据集规模,计算的效率受限于单机处理能力。如何提高海量数据下的聚类分析能力是迫切需要解决的问题。Google实验室提出的分布式并行编程模型或框架MapReducer3],它通过集群来处理海量数据,是云计算平台主流的并行数据处理模型。

  Apache推出的Hadoop平台用Java实现了MapReduce模型。Mahout是Hadoop平台的组件之一,是一个机器学习和数据挖掘库,它利用MapReduce编程模型实现了数据挖掘中的众多算法,且具有良好的可扩展性。本文在此基础上,并基于Mahout进行了聚类实例研究。
 

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !