[内附完整源码和文档] 基于scrapy-redis的分布式网络爬虫

第1章 引言
分布式是大数据时代流行的一个词,比如常见的分布式计算,分布式存储,分布式爬虫等等。

分布式爬虫,从字面的意义上来说是集群爬虫,就是将爬虫任务分配给多台机器同时进行处理,与之对应的是单机爬虫,单点部署,单点操作。分布式爬虫相当于将多个单机联系起来形成一个整体来完成工作,目的就是提高可用性、稳定性和性能,因为单机操作有CPU、IO和带宽等多重限制。

打造分布式爬虫的关键是调度,本设计采用消息队列的方式,使用scrapy-redis组件作为消息队列,从而实现分布式。

本报告的内容组织如下:第二节介绍Redis基础,包括Redis的安装和使用;第三节说明MongoDB集群的基本操作;分布式网络爬虫设计方案及源码分析是第四部分要陈述的内容;第五部分展示实验环境和最终实现的设计效果;第六部分是总结与展望。

第2章 Redis基础
2.1 Redis简介
Redis 是一个使用ANSI标准的C语言编写的开源、支持网络、基于内存的Key-Value存储数据库。根据DB-Engines网站的数据显示,Redis是最流行的键值对数据库。

Redis的外围由一个键、值映射的字典构成。与其他非关系型数据库的主要不同在于:Redis中值的类型不仅限于字符串类型,还支持一些抽象的数据类型,如字符串列表、无序不重复的字符串集合、键和值都为字符串的哈希表等。值的类型决定了值本身支持的操作,Redis支持不同无序、有序的列表,无序、有序的集合间的交集、并集等高级服务器端原子操作。

Redis支持主从同步。数据可以从主服务器向任意数量的从服务器上同步,从服务器可以是关联其他从服务器的主服务器。这使得Redis可执行单层树复制。从盘可以有意无意的对数据进行写操作。由于完全实现了发布/订阅机制,使得从数据库在任何地方同步树时,可订阅一个频道并接收主服务器完整的消息发布记录。同步对读取操作的可扩展性和数据冗余很有帮助。

最值得一提的是Redis的性能。Redis通常将全部的数据存储在内存中。当数据依赖不再需要,Redis这种基于内存的性质,与在执行一个事务时将每个变化都写入硬盘的数据库系统相比就显得执行效率非常高。写与读操作速度没有明显差别。

本项目使用Redis来进行分布式爬虫的调度,并未用它存储数据,存储数据使用的是MongoDB集群。

2.2 在Linux下安装Redis
wget http://download.Redis.io/releases/Redis-4.0.6.tar.gz tar xzf Redis-4.0.6.tar.gz
cd Redis-4.0.6 make
使用make命令编译成功后,即可使用Redis。进入src目录下,执行./Redis-server命令,启动Redis服务。Redis服务端的默认连接端口是6379。

2.3 Scrapy集成Redis
本项目使用开源软件包scrapy_redis实现分布式爬虫机制。

Scrapy是使用Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

5.1 实验环境
本项目实现环境为:CentOS 6.9,Inter i5-3320m CPU 2.6GHz,scrapy 1.4.0,Redis 3.2.5,mongodb 3.0.6。由于实验室硬件环境有限,采取在一台主机上开启不同的端口,来实现三台机器的效果,选择127.0.0:27017作为主节点,127.0.0.1:27018和127.0.0.1:27019作为从节点,选择三个不同的文件夹,作为数据库的存储。

5.2 实验步骤
5.2.1 创建爬虫项目
在爬虫之前,首先应该对目标网站——xx书院(xx.qq.com)进行分析。我们的目的是抓取网站上小说的名称、作者、分类、状态、更新时间、字数、点击量、人气和推荐等数据。在网站图书列表中,包含小说的名称、作者、所属分类、状态(连载中或已完载)、最近更新时间、字数等信息;任意选择其中一个小说条目,进入小说的详情页,详情页包含小说的点击量、人气、推荐等数据。

对网站的结构分析完成后,就可以创建项目了。使用全局命令startproject创建项目;进入项目文件夹,使用scrapy提供的crawl模板创建一个名为xx.qq.com的Spider。命令如下所示:

创建爬虫项目:xxCrawl

scrapy startproject xxCrawl
cd xxCrawl
scrapy genspider –t crawl xx.qq.com xx.qq.com
5.2.2 定义数据结构——/items.py
创建完项目之后,我们根据网站上小说的信息展示方式,在Python中使用类(class)定义了两个Item,分别是小说的基本信息ListItem(即图书列表中展示的信息)和小说的热度信息DetailItem(即小说详情页展示的信息)。

5.2.3 实现爬虫——/spiders/xx_qq_com.py
爬虫的实现主要是对目标页面的解析。我们使用两个函数:parse_book_list()用于解析图书列表页,获取小说的基本信息;parse_book_detail()用于解析小说详情页,获取小说的点击量和人气等数据。

5.2.4 保存数据——/pipelines.py
我们将爬虫获取到的数据保存到MongoDB中。在MongoDB中,我们创建了两个collection,分别是bookInfo和bookhot,对应5.2.2中的两个item。在pipelines.py中,我们定义了一个类xxcrawlPipeline,并将数据库的连接、插入等操作封装在这个类中。数据库的信息封装在配置文件(settings.py)中。pipelines.py完成后,还要在配置文件中添加如下代码激活xxcrawlPipeline:

ITEM_PIPELINES = {
‘xxCrawl.pipelines.xxcrawlPipeline’: 300,
}
最后,执行如下命令,爬虫即可启动:

scrapy crawl xx.qq.com
5.3 实验结果数据部分展示

在这里插入图片描述

完整的源码和详细的文档,上传到了 WRITE-BUG技术共享平台 上,需要的请自取:

https://www.write-bug.com/article/2895.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342