第1章 引言
分布式是大数据时代流行的一个词,比如常见的分布式计算,分布式存储,分布式爬虫等等。
分布式爬虫,从字面的意义上来说是集群爬虫,就是将爬虫任务分配给多台机器同时进行处理,与之对应的是单机爬虫,单点部署,单点操作。分布式爬虫相当于将多个单机联系起来形成一个整体来完成工作,目的就是提高可用性、稳定性和性能,因为单机操作有CPU、IO和带宽等多重限制。
打造分布式爬虫的关键是调度,本设计采用消息队列的方式,使用scrapy-redis组件作为消息队列,从而实现分布式。
本报告的内容组织如下:第二节介绍Redis基础,包括Redis的安装和使用;第三节说明MongoDB集群的基本操作;分布式网络爬虫设计方案及源码分析是第四部分要陈述的内容;第五部分展示实验环境和最终实现的设计效果;第六部分是总结与展望。
第2章 Redis基础
2.1 Redis简介
Redis 是一个使用ANSI标准的C语言编写的开源、支持网络、基于内存的Key-Value存储数据库。根据DB-Engines网站的数据显示,Redis是最流行的键值对数据库。
Redis的外围由一个键、值映射的字典构成。与其他非关系型数据库的主要不同在于:Redis中值的类型不仅限于字符串类型,还支持一些抽象的数据类型,如字符串列表、无序不重复的字符串集合、键和值都为字符串的哈希表等。值的类型决定了值本身支持的操作,Redis支持不同无序、有序的列表,无序、有序的集合间的交集、并集等高级服务器端原子操作。
Redis支持主从同步。数据可以从主服务器向任意数量的从服务器上同步,从服务器可以是关联其他从服务器的主服务器。这使得Redis可执行单层树复制。从盘可以有意无意的对数据进行写操作。由于完全实现了发布/订阅机制,使得从数据库在任何地方同步树时,可订阅一个频道并接收主服务器完整的消息发布记录。同步对读取操作的可扩展性和数据冗余很有帮助。
最值得一提的是Redis的性能。Redis通常将全部的数据存储在内存中。当数据依赖不再需要,Redis这种基于内存的性质,与在执行一个事务时将每个变化都写入硬盘的数据库系统相比就显得执行效率非常高。写与读操作速度没有明显差别。
本项目使用Redis来进行分布式爬虫的调度,并未用它存储数据,存储数据使用的是MongoDB集群。
2.2 在Linux下安装Redis
tar xzf Redis-4.0.6.tar.gz
make
使用make命令编译成功后,即可使用Redis。进入src目录下,执行./Redis-server命令,启动Redis服务。Redis服务端的默认连接端口是6379。
2.3 Scrapy集成Redis
本项目使用开源软件包scrapy_redis实现分布式爬虫机制。
Scrapy是使用Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
5.1 实验环境
本项目实现环境为:CentOS 6.9,Inter i5-3320m CPU 2.6GHz,scrapy 1.4.0,Redis 3.2.5,mongodb 3.0.6。由于实验室硬件环境有限,采取在一台主机上开启不同的端口,来实现三台机器的效果,选择127.0.0:27017作为主节点,127.0.0.1:27018和127.0.0.1:27019作为从节点,选择三个不同的文件夹,作为数据库的存储。
5.2 实验步骤
5.2.1 创建爬虫项目
在爬虫之前,首先应该对目标网站——xx书院(xx.qq.com)进行分析。我们的目的是抓取网站上小说的名称、作者、分类、状态、更新时间、字数、点击量、人气和推荐等数据。在网站图书列表中,包含小说的名称、作者、所属分类、状态(连载中或已完载)、最近更新时间、字数等信息;任意选择其中一个小说条目,进入小说的详情页,详情页包含小说的点击量、人气、推荐等数据。
对网站的结构分析完成后,就可以创建项目了。使用全局命令startproject创建项目;进入项目文件夹,使用scrapy提供的crawl模板创建一个名为xx.qq.com的Spider。命令如下所示:
创建爬虫项目:xxCrawl
scrapy startproject xxCrawl
cd xxCrawl
scrapy genspider –t crawl xx.qq.com xx.qq.com
5.2.2 定义数据结构——/items.py
创建完项目之后,我们根据网站上小说的信息展示方式,在Python中使用类(class)定义了两个Item,分别是小说的基本信息ListItem(即图书列表中展示的信息)和小说的热度信息DetailItem(即小说详情页展示的信息)。
5.2.3 实现爬虫——/spiders/xx_qq_com.py
爬虫的实现主要是对目标页面的解析。我们使用两个函数:parse_book_list()用于解析图书列表页,获取小说的基本信息;parse_book_detail()用于解析小说详情页,获取小说的点击量和人气等数据。
5.2.4 保存数据——/pipelines.py
我们将爬虫获取到的数据保存到MongoDB中。在MongoDB中,我们创建了两个collection,分别是bookInfo和bookhot,对应5.2.2中的两个item。在pipelines.py中,我们定义了一个类xxcrawlPipeline,并将数据库的连接、插入等操作封装在这个类中。数据库的信息封装在配置文件(settings.py)中。pipelines.py完成后,还要在配置文件中添加如下代码激活xxcrawlPipeline:
ITEM_PIPELINES = {
‘xxCrawl.pipelines.xxcrawlPipeline’: 300,
}
最后,执行如下命令,爬虫即可启动:
scrapy crawl xx.qq.com
5.3 实验结果数据部分展示
完整的源码和详细的文档,上传到了 WRITE-BUG技术共享平台 上,需要的请自取: