×

基于大型网站的搜索引擎网页更新方法研究

消耗积分:2 | 格式:rar | 大小:130 | 2009-08-24

479461

分享资料个

大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能。本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法。实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率。
关键词:大型网站;搜索引擎;更新
互联网的飞速发展使网络成为人们获取信息的一个不可或缺的重要来源,基于Internet 的各类信息检索服务应运而生并得到了迅速发展,据统计,搜索已经成为第二大网络应用[1]。网络信息的快速增长和网页动态变化的特性使因信息更新或网址变动造成的搜索引擎信息缺失日益增加,导致搜索引擎整体性能下降。因此,如何快速有效地对搜索引擎网页进行更新,保证索引信息的有效性,成为一个重要的研究课题。大型网站是提供网络信息的核心,与中小型网站信息相比,大型网站具有信息量大、结构化程度高、时效性强、更新速度快、更新周期不一致等特点。CNNIC 2003 年报告[2]显示,排名前100 位的大型网站只占网站总数的1/6000,而网页总数和网页总字节数则占到1/10,可见对大型网站搜索的好坏直接影响搜索引擎的整体效果。
本文针对大型网站的特点提出了一种增量式搜索引擎网页动态更新方法。该方法根据大型网站网页特征对其进行分类,具有相同属性的网页组成一个子网站,不同的子网站采用不同的更新机制。对子网站的划分充分体现了大型网站信息量大、结构化程度高的特点,不同子网站采用不同的更新周期则适应了不同类型网页更新周期不一致的特征。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !