网页去重处理是提高检索质量的有效途径,本文给出了一个基于特征码的网页去重算法,介绍了算法的具体实现步骤,采用二叉排序树实现。算法有较高的判断正确率,在信息检索中有较好的应用前景。
关键字:网页去重; 网页特征码; 二叉排序树
随着网络技术和信息技术的飞速发展,网络已经成为人们获取信息的一个重要途径。现有的搜索引擎面临的最大一个问题就是返回的结果集中包含大量重复的信息。如何更有效地帮助用户获取所需要的信息,能够快速、准确地为用户提供信息,是网络信息服务面临的新课题。优化搜索结果可以采用多种手段,如通过提取网页的特征进行基于内容的信息检索,利用用户反馈的信息进一步精确检索结果,将结果集中的重复信息尽可能地消除等。
由于网络信息分布的特点,网站上的信息存在相互转载及镜像站点等情况。出现相同网页主要有以下几种情形:网页的URL 完全相同;网页的URL 形式不同,但网站域名所对应的IP 是相同的;URL虽然不同,但网页内容完全相同;URL 不同,为不同的网页形式,但网页上主要内容是相同的。本文主要讨论对于网页内容重复性的消除。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !