停更了许久,从今天开始继续更新。
基础爬虫架构及运行流程
爬虫架构由5部分组成,爬虫调度器,URL管理器,HTML下载器,HTML解析器和数据存储器。其功能如下:
爬虫调度器:主要负责统筹其他四个模块的协调工作。
URL管理器:负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的借口。
HTML下载器:用于从URL管理器中获取未爬取的URL链接并下载HTML网页。
HTML解析器:用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效的数据交给数据存储器。
数据存储器:用于将HTML解析器解析出来的数据通过文件或数据库的形式存储起来。
URL管理器
URL管理器主要包括两个变量,一个是已爬取URL的集合,另一个是未爬取的URL集合,采用python中的set数据类型,进行去重,另外还配有以下接口,以便供其他模块使用。