实体分辨( Entity Resolution)中,记录比较的准确性直接影响能否准确、完整地识别相似重复记录,如何得到更为准确的记录比较结果一直是相关领域的研究热点。
传统的记录比较方法又被称为基于特征的方法( Feature-Based Similarity methods, FBS methods),该方法将记录看作属性的集合,逐属性地进行比较,以得到记录对的相似度向量。有研究表明,FBS方法中的相似度算法一般存在适用范围,而选择最合适的算法又是NP难问题,故准确相似度的获取成为了一个难题。
针对记录比较的准确性问题,本文利用数据集中的条件函数依赖( Conditional Functional Dependencies,CFDs)关系,提出了一种基于数据一致性的记录比较方法( Consistence-Based Similaritymethod,CBS方法)。介绍了条件函数依赖的概念,所提方法的总体思想及关键步骤,并给出了实验过程和结果。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !