网络爬虫的算法

工程师 2019-03-21 15881

电子说

1.4w人已加入

　　网络爬虫常用到的算法

　　1、深度优先算法

　　该算法是指网络爬虫会从选定的一个超链接开始，按照一条线路，一个一个链接访问下去，直到达到这条线路的叶子节点，即不包含任何超链接的HTML文件，处理完这条线路之后再转入下一个起始页，继续访问新的起始页面所包含的链接中的一条，直到到达叶子结点。这个方法有个优点是网络爬虫在设计的时候比较容易。

　　2、广度优先算法

　　广度优先算法是指网络爬虫会先抓取起始网页中包含链接的所有网页，然后再选择其中的一个链接网页，继续抓取在这个网页中链接的所有网页。这种搜索方法是实现通用网络爬虫的最佳方法，因为它的特点是易于实现，并且能够避免陷进一个无穷尽的深层分支中去，可以让网络爬虫并行处理，从而提高其抓取速度。

　　3、启发式搜索算法

　　源于人工智能，即先通过在线获得的领域知识评价待访问链接的价值，借以推断信息资源的分布情况，然后按一定的原则选择价值最大的链接进行下一步的搜索，找到到达目标节点的最佳路径，删除不好节点，保留那些好的节点，该算法主要用于主题爬虫。

　　爬虫节点爬取到的网页数据会存放到资源库中，资源库对爬取到的数据进行分析并建立索引，分析算法有以下几种：

　　（1）基于用户行为的分析算法：根据用户对网页的访问频率、访问时长、点击率等对网页数据进行分析。

　　（2）基于网络拓扑的分析算法：根据网页的外链、网页的层次、网页的等级等对网页数据进行分析，计算出网页的权重，对网页进行排名。

　　（3）基于网页内容的分析算法：根据网页的外观、网页的文本等内容特征对网页数据进行分析。

打开APP阅读更多精彩内容