×

一种基于重复串的STC改进算法

消耗积分:3 | 格式:rar | 大小:221 | 2010-01-27

张亮

分享资料个

目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时
容易产生误判。本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC 算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !