×

基于信任指数的对抗web垃圾页面方案研究

消耗积分:2 | 格式:rar | 大小:184 | 2009-08-11

分享资料个

本文首先提出链接分析法中存在的垃圾页面问题并将其形式化描述出来;再从两个角
度分别介绍了挑选种子页面集的思想;然后在改进现有PageRank 算法的基础上提出了垃圾页面检测算法;同时给出了几个表征检测算法效率的性能指标,最后简要阐述了基于信任指数的对抗web 垃圾页面方案。
随着 Internet 技术的迅速发展,网上各种信息呈指数式增长,人们需要的有用信息仅是
其中非常小的一部分,这使得高效能搜索引擎的研究设计工作显得十分必要。以前,搜索引擎一般采用的是平面搜索方式,即单纯的关键字搜索;目前,很多引擎采用层次搜索方式,比如权威搜索引擎Google 使用页面等级(PageRank)来特征标识web 页面,进而按照页面等级对页面排序,这样等级越大,被检索的可能性就越高,在搜索结果中也越靠前。
然而,某些web 页面(比如垃圾页面,它可定义为那些滥用超链接来企图误导搜索引
擎的页面集合)采用了多种方法来提高自身的页面等级以增大被检索的可能性,最典型的方式如下:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !