×

舆情去重算法的研究

消耗积分:0 | 格式:rar | 大小:0.69 MB | 2017-11-03

分享资料个

  近年来,舆情信息在大数据服务中广泛被加工使用,但转载、复制等操作使得采集的舆情信息重复量庞大,给后期的加工带来困难。在这种情况下,针对舆情数据开展去重研究的却相对较少。文中针对舆情去重不可避免但缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard等经典去重算法,结合TF、TF-IDF、特征码等不同特征选择和3 000舆情样本进行实验,最终发现MinHash+特征码运行时间最短;Jaccard的漏判数最少,召回率可达90%以上;MinHash算法的误判数最少,去重精度可达100%,并且MinHash通过阈值的调整能够获得Jaccard同样的召回率。

舆情去重算法的研究

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !