现有的检索技术和方法在一定程度上缓解了人们上网查询信息的困难,但是检索到的都是互联网上比较表层的信息。因为检索方法的限制(广度优先),造成这些检索方法不可能对互联网中的深层信息进行挖掘,而当我们需要在网上查询比较深层次的大量的同一性质的信息时(比如当我们需要从美国大学计算机系中,查出从事互联网信息挖掘研究人员及其近期有关论文的信息时),将面临巨大的工作量。我们希望当用户给定上面这些条件时,计算机能够自动地在互联网上找到这些信息。
只有在计算机能够识别未知网页的基础上,才能继续深层信息挖掘工作,因此必须从最基本的网页识别开始研究。目前国内www文本信息挖掘工作已经取得一定进展。本文将ROCCHIO和WIDROW-HOFF两种线性文本分类算法应用于网页识别领域,在对网页识别过程中各环节的处理方式及几种常用算法进行比较分析的基础上,得出各算法的优劣,力图使网页识别率达到令人满意的程度。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !