从0开始部署scrapy-redis分布式爬虫

之前用scrapy爬取了知乎用户数据，由于数据量很大，便考虑采取分布式提升爬取效率，便有的此文。爬虫源码为https://pan.baidu.com/s/1mCK8mosshkkb1Vx9sVDEGg，读者自行下载，接下来进入主题：

前期准备：我们分别需要在主机和从机上配置好环境和所需要的软件及安装包，具体如下：

一、在主机上我们需要安装好python，redis，mongodb，VMware，Xshell。

1、其中VMware与Xshell是为搭建虚拟机服务的.

2、python需要安装好scrapy，scrapy_redis，pymongo，scrapy_client，尽量安装最新版本的。

3、为了远程连接redis和mongodb，需要对redis和mongodb分别进行设置，由于在源码中我把MongoPipeline关掉了，用不到mgogodb数据库了，这里就以redis为例：找到redis安装目录下的redis.windows.conf 配置文件（如图1），选择相应的工具打开,redis默认bind localhost,找到bind 并修改为0.0.0.0（如图2）。

图1

图2

当你的电脑作为主机时需要时刻开着redis服务，下面是打开redis服务的配置

4、打开cmd命令行进入redis的安装目录，输入redis-server.exe redis.windows.conf 回车。

如果出现bind:no error （在redis目录下输入redis-cli 回车输入shutdown 回车输入 exit退出）然后再重新输入输入redis-server.exe redis.windows.conf运行服务，出现图3即证明运行成功。

图3

5、主机开启redis服务之后，不要断开，切记！！！进入redis安装目录，输入：redis-cli.exe -h 主机（或者别人的）ip地址（-p 端口号6379（可以不用写））用来测试是否可以远程连接redis(如果回车之后没有出现如图4效果，检查自己的bind是否修改以及redis服务是否被自己关闭)出现如下表示可以远程连接redis。注意这里需要另开一个cmd命令窗口。

图4

mongdb的配置可以自行百度，至此主机的配置算是初步完成。

二、虚拟机即从机,我们需要安装好python3，scrapy，scrapyd

1、借助VMware软件我在D盘建立了一个linux系统，linux系统默认安装了python2，不满足我的要求，于是手动安装python3，这里需要注意不要动python2，避免引起不必要的麻烦。linux系统下安装python3具体步骤如下：

（1）安装依赖环境

#yum install -y gcc

#yum install -y zlib*

#yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel

（2）下载Python3

# wget https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz

注意这一步需要先安装wget工具，命令如下 yum -y install wget

（3）解压下载好的Python-3.x.x.tgz包

# tar -zxvf Python-3.6.3.tgz

（4）进入解压后的目录，配置文件

# cd Python-3.6.3

# ./configure --prefix=/usr/local/python36 这里指定安装目录

（5）编译与安装

#make && make install

（6）创建新版本的软连接。

修改旧版本 #mv /usr/bin/python /usr/bin/python_bak

创建新的软连接 # ln -s /usr/local/python36/bin/python3 /usr/bin/python

创建一下pip3的软链接 # ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

注意这里要注意自己安装python的路径，可以which python查看

至此linux下python3安装完毕，可以输入python看看效果

图5

2、接着安装scrapy与scrapyd

完成以上安装python3的步骤之后，就可以直接通过pip安装scrapy与scrapyd，

命令如下：pip3 install scrapy，pip3 install scrapyd

命令行输入scrapyd，查看效果，scrapyd默认开启127.0.0.1端口，我们需要修改配置，首先找到启动配置文件：

vi /usr/local/python36/lib/python3.6/site-packages/scrapyd/default_scrapyd.conf

这里的路径不是绝对的，具体的是看你把scrapyd安装在哪里了，你用虚拟环境安装的就在虚拟虚拟环境的python下面，不知道的which python可以查看，搞就完了！

修改目的：

修改该启动配置文件的目的是可以远程访问，scrapyd框架分为server端和client端，两个的ip地址必须对的上才能通信；

(1)client端需要将代码上传到server端

(2)可以浏览器访问server端的gui管理界面，世界各地没毛病，前提是具有公网ip；

配置：

默认scrapyd启动bind绑定的ip地址是127.0.0.1端口是：6800，

将ip地址设置为0.0.0.0

打开配置文件不需要翻页就能够找到bind_address

bind_address = 0.0.0.0

修改完成之后再次执行scrapyd，会出现下图所示

图6

至此准备工作完毕，接下来进入爬虫的配置和部署工作。

三、知乎爬虫的配置与部署

1、首先是scrapy分布式爬虫原理的介绍

（1）关于Scrapy工作流程

scrapy单机架构

图7

上图的架构其实就是一种单机架构，只在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。

图8

分布式架构

图9

我将上图进行再次更改

图10

（2）这里重要的就是我的队列通过什么维护？

这里一般我们通过Redis为维护，Redis是非关系型数据库，Key-Value形式存储，结构灵活。并且redis是内存中的数据结构存储系统，处理速度快，提供队列集合等多种存储结构，方便队列维护

（3）如何去重？

这里借助redis的集合，redis提供集合数据结构，在redis集合中存储每个request的指纹，在向request队列中加入Request前先验证这个Request的指纹是否已经加入集合中。如果已经存在则不添加到request队列中，如果不存在，则将request加入到队列并将指纹加入集合

（4）如何防止中断？如果某个slave因为特殊原因宕机，如何解决？

这里是做了启动判断，在每台slave的Scrapy启动的时候都会判断当前redis request队列是否为空，如果不为空，则从队列中获取下一个request执行爬取。如果为空则重新开始爬取，第一台丛集执行爬取向队列中添加request

（5）如何实现上述这种架构？

这里有一个scrapy-redis的库，为我们提供了上述的这些功能，scrapy-redis改写了Scrapy的调度器，队列等组件，利用他可以方便的实现Scrapy分布式架构。关于scrapy-redis的地址：https://github.com/rmax/scrapy-redis。

2、搭建分布式爬虫

参考官网地址：https://scrapy-redis.readthedocs.io/en/stable/

前提是要安装scrapy_redis模块：pip install scrapy_redis

这里的爬虫代码是用的之前写过的爬取知乎用户信息的爬虫

（1）修改该settings中的配置信息：

替换scrapy调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

添加去重的class

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

添加pipeline

如果添加这行配置，每次爬取的数据也都会入到redis数据库中，所以一般这里不做这个配置

ITEM_PIPELINES = {'scrapy_redis.pipelines.RedisPipeline': 300}

共享的爬取队列，这里用需要redis的连接信息，这里的user:pass表示用户名和密码，如果没有则为空就可以 #REDIS_URL = 'redis://user:pass@hostname:6379'，我由于没设置用户名与账号，就采取如下设置REDIS_HOST='192.168.16.243'，REDIS_PORT=6379

SCHEDULER_PERSIST = True设置为为True则不会清空redis里的dupefilter和requests队列，这样设置后指纹和请求队列则会一直保存在redis数据库中，默认为False，一般不进行设置

SCHEDULER_FLUSH_ON_START=True设置重启爬虫时是否清空爬取队列，这样每次重启爬虫都会清空指纹和请求队列,一般设置为False

（2）Scrapy分布式部署

这个scrapyd的github地址：https://github.com/scrapy/scrapyd

当在远程主机上安装了scrapyd并启动之后，就会再远程主机上启动一个web服务，默认是6800端口，这样我们就可以通过http请求的方式，通过接口的方式管理我们scrapy项目，这样就不需要在一个一个电脑连接拷贝过着通过git，关于scrapyd官方文档地址http://scrapyd.readthedocs.io/en/stable/

这里我在linux虚拟机中已经安装scrapy以及scrapyd等包，保证所要运行的爬虫需要的包都完成安装。

在这里有个小问题需要注意，默认scrapyd启动是通过scrapyd就可以直接启动，这里bind绑定的ip地址是127.0.0.1端口是：6800，这里为了其他虚拟机访问讲ip地址设置为0.0.0.0

scrapyd的配置文件：/usr/local/python36/lib/python3.6/sitepackages/scrapyd/default_scrapyd.conf

这样我们就可以通过浏览器访问：

图11

3、关于部署

如何通过scrapyd部署项目，这里官方文档提供一个地址：https://github.com/scrapy/scrapyd-client，即通过scrapyd-client进行操作

这里的scrapyd-client主要实现以下内容：

把我们本地代码打包生成egg文件

根据我们配置的url上传到远程服务器上

我们将我们本地的scrapy项目中scrapy.cfg配置文件进行配置：

图12

我们其实还可以设置用户名和密码，不过这里没什么必要，只设置了url

这里设置url一定要注意：url = http://192.168.1.9:6800/addversion.json

最后的addversion.json不能少

已经本地安装好scrapy_client,直接执行：scrapyd-deploy，得到如下表示即表明打包成功。

图13

windows用户需要注意，在windows上，pip install scrapyd-client 后。在cmd中运行部署命令，scrapyd-deploy 如果提示：'scrapyd-deploy' 不是内部或外部命令，也不是可运行的程序或批处理文件。可以通过如下步骤解决：

(1)进到python安装目录下Scripts 文件里，创建两个新文件：scrapy.bat、scrapyd-deploy.bat，这里我的文件目录为D:/python3.5.2/Scripts

(2)编辑两个文件：

scrapy.bat文件中输入以下内容：

@echo off

D:\Python3.5.2\python D:\Python3.5.2\Scripts\scrapy %*

scrapyd-deploy.bat 文件中输入以下内容：

@echo off

D:\Python33.5.2\python D:\Python3.5.2\Scripts\scrapyd-deploy %*

(3)保存退出，并确保你的 D:/python3.5.2和D:/python3.5.2/Scripts 都在环境变量。这样就可以正常运行scrapy-deploy命令了。

4、关于常用操作API

完成上述步骤，我们已经虚拟机部署了一个爬虫项目，现在要怎么操作呢？scrapy_client为我们提供了一个web接口用于调度爬虫项目，详情可以查看scrapyd帮助文档https://scrapyd.readthedocs.io/en/latest/api.html#cancel-json，这里简单举个例子，如我们可以直接在pycharm的terminal端口直接执行curl http://localhost:6800/listprojects.jsonlistprojects.json列出上传的项目列表，本人在windows下直接运行curl，出现如下提示：

图14

于是选择在cmd命令端口中执行curl命令，如图所示

图15

远程启动虚拟机上部署的爬虫，可以执行以下命令

$ curl http://192.168.16.235:6800/schedule.json -d project=zhihuuser -d spider=zhihu，其中project是项目名称，spider是爬虫名称，执行完毕返回下图则说明调度成功

图16

我们可以通过查看scrapyd提供的web接口http://192.168.16.235:6800查看项目执行情况

图17

点击上图的log可以查看爬虫爬取情况，再后面我们可以通过下面命令关闭爬虫任务。

curl http://192.168.16.235:6800/cancel.json -d project=zhihuuser -d job=b756ad6c006f11e984d3000c29f4ffc1,这里的job就是图16里调度成功之后返回的jobid

执行成功后同样可以借助http://192.168.16.235:6800查看到任务已经finish。

最后编辑于：2018.12.15 22:39:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335

从0开始部署scrapy-redis分布式爬虫

一、在主机上我们需要安装好python，redis，mongodb，VMware，Xshell。

二、虚拟机即从机,我们需要安装好python3，scrapy，scrapyd

三、知乎爬虫的配置与部署

推荐阅读更多精彩内容