python爬虫框架简介

每一个网页都有一个对应的url，而url在页面上又有很多指向其他页面的url，这种url之间相互的指向关系就形成一个网，这就是互联网。通常，我们使用浏览器访问互联网，获取需要的、感兴趣的信息，但这种方式效率低下。对于批量数据的获取，网络爬虫有着天生的优势。

网络爬虫是一段自动抓取互联网信息的程序，它模仿浏览器访问互联网的过程，下载网页，然后解析得到需要的数据。此外，爬虫可以从一个url出发，访问它关联的所有url，并且从每个页面上提取我们所需要的、有价值的数据。

Python是编写爬虫程序的常用工具。Python中有多个模块使得爬虫编写非常简单，常用的模块有：urllib、requests、re、bs4、Selenium等。

1 - 通用爬虫框架

通用爬虫框架定义了编写一个网络爬虫最基本的过程。一个通用的爬虫框架通常包含待抓取的URL列表、已抓取的URL列表、URL下载器、URL解析器、数据库等几个模块。根据任务的需求，还可以加入监控模块、定时启动模块等。下图是一个通用爬虫框架示意图：

通用爬虫框架的工作流程如下：
step 1、确定种子URL，并存入待抓取的URL列表；
step 2、从待抓取的URL列表中随机提取一个URL，发送到URL下载器；
step 3、URL下载器开始下载页面，如果下载成功，将页面发送给URL解析器，同时把URL存入已抓取的URL列表；如果下载失败，将URL重新存入待抓取的URL列表，重复step 2；
step 4、URL解析器开始解析页面，将获得的新的URL存入待抓取的URL列表，同时将需要的、有价值的数据存入数据库；
step 5、重复step2-4，直到待抓取的URL列表为空。

2 - Scrapy框架

Scrapy是用python下的一个互联网爬虫应用框架，它能够爬取网站并抽取结构化的数据，它也能够使用API获取数据。Scrapy框架中有很多实用的内置插件和中间件，如：cookies and session handling、user-agent spoofing、robots.txt、crawl depth restriction等，这写插件和中间件使得Scrapy框架的实用性更强。Scrapy框架的示意图如下：

Scrapy框架的工作流程：首先从初始 URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，Spider 分析出来的结果有两种：一种是需要进一步抓取的链接，例如“下一页”的链接，这些东西会被传回 Scheduler；另一种是需要保存的数据，它们则被送到 Item Pipeline 那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。

3 - PySpider框架

PySpider是国人用python编写的一个功能强大的网络爬虫框架。主要特性如下：
1、强大的WebUI，包含：脚本编辑器、任务监控器，项目管理器和结果查看器；
2、多数据库支持，包括：MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL with SQLAlchemy等；
3、使用RabbitMQ, Beanstalk, Redis 和Kombu作为消息队列；
4、支持任务优先级设定、定时任务、失败后重试等；
5、支持分布式爬虫

其框架示意图如下：

PySpider模块之间通过消息队列连接。每一个模块都运行在各自的进程/线程上，消息队列也有一个独立的线程。这就意味着可以充分利用多个cpu的优势。

参考资料

网络爬虫基本原理 http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html

Java爬虫框架简介 http://jingyan.baidu.com/article/f71d6037ad72111ab741d14f.html

基于scrapy框架爬虫学习小结 http://blog.csdn.net/qq_29245097/article/details/51586802

PySpider简介 http://docs.pyspider.org/en/latest/

Web Scraping with Python - Collecting Data from the Modern Web. Ryan Mitchell. 2015

最后编辑于：2018.04.15 17:05:14