针对传统文本分类算法在面对日益增多的海量文本数据时效率低下的问题,论文在Spark计算框架上设计并实现了一种并行化朴素贝叶斯文本分类器,并着重介绍了基于Spark计算框架的文本分类实现过程。实验阶段,分别在单机、Map Reduce和Spark三种不同的计算框架下测试了文本分类的效率,并使用控制变量的方法在Spark计算框架下设计对照实验。实验证明,Spark计算框架下的朴素贝叶斯算法在面对海量文本分类时有着较高的处理效率。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !