根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个子块。由统计可知,子内容块的内容具有明显的数值特征,可以该特征作为BP神经网络的学习来源。这样可把网页的净化问题转化成通过学习建立过滤模型的问题。实验结果证明,该方法在有主题的中文网页应用上取得了理想的效果。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !