×

对基于MPN的相似重复记录识别算法的改进

消耗积分:2 | 格式:rar | 大小:651 | 2009-08-31

其实znvm

分享资料个

相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销。文章最后给出了改进算法与原算法的对比试验结果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(1)
发评论
renwf 2016-01-22
0 回复 举报
好奇,来看看 收起回复

下载排行榜

全部1条评论

快来发表一下你的评论吧 !