网络爬虫的基本工作流程

工程师 2019-03-21 28573

电子说

1.3w人已加入

描述

　　网络爬虫的基本工作流程

　　通用网络爬虫根据预先设定的一个或若干初始种子URL开始，以此获得初始网页上的URL列表，在爬行过程中不断从URL队列中获一个的URL，进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容，将摘要、URL等信息保存到Web数据库中，同时抽取当前页面上新的URL，保存到URL队列，直到满足系统停止条件。其工作流程如图1所示。

　　主题爬虫工作流程

　　主题爬虫需要根据一定的网页分析算法，过滤掉与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它会根据一定的搜索策略从待抓取的队列中选择下一个要抓取的URL，并重复上述过程，直到满足系统停止条件为止。所有被抓取网页都会被系统存储，经过一定的分析、过滤，然后建立索引，以便用户查询和检索；这一过程所得到的分析结果可以对以后的抓取过程提供反馈和指导。其工作流程如图3所示。

　　深度网络爬虫工作流程

　　1994年Dr．jillEllsworth提出DeepWeb（深层页面）的概念，即DeepWeb是指普通搜索引擎难以发现的信息内容的Web页面¨。DeepWeb中的信息量比普通的网页信息量多，而且质量更高。但是普通的搜索引擎由于技术限制而搜集不到这些高质量、高权威的信息。这些信息通常隐藏在深度Web页面的大型动态数据库中，涉及数据集成、中文语义识别等诸多领域。如此庞大的信息资源如果没有合理的、高效的方法去获取，将是巨大的损失。因此，对于深度网爬行技术的研究具有极为重大的现实意义和理论价值。

打开APP阅读更多精彩内容