pyspider web爬虫框架的使用

一、为什么要使用pyspider？

我们很好奇，我们明明有了Scrapy框架，为什么还要使用pyspider框架呢？我们说两点

pyspider的优点，它有这么几个优点
1.提供WebUI界面，调试爬虫很方便
2.可以很方便的进行爬取的流程监控和爬虫项目管理
3.支持常见的数据库
4.支持使用PhantomJS，可以抓取JavaScript页面
5.支持优先级定制和定时爬取等功能
和Scrapy的比较
1.pyspider 提供 WebUI,Scrapy它采用的是代码和命令行操作，但可以通过对接 Portia 现可视化配置
2.pyspider 支持 PhantomJS来进行 JavaScript 谊染页面的采集 Scrapy 可以对接 Sc rapy-Splash组件，这需要额外配置
3.pyspider 中内置pyquery 作为选择器而Scrapy 接了XPath 对接css选择器和正则匹配
4.pyspider的可扩展程度不高，Scrapy可以通过对接其他的模块实现强大的功能，模块之间的耦合度低
总结
所以如果要快速实现一个页面的抓取，推荐使用 pyspider,开发更加便捷,如果要应对反爬程度很强、超大规模的抓取，推荐使用 Scrapy ，

二、pyspider的安装

pyspider的安装相对简单，不需要安装一些列的依赖库直接使用

pip install pyspider

然后等待安装成功就行，也可以使用源码安装 pyspider源码

三、pyspider的简单使用

1.安装之后先验证是否安装成功，在CMD下输入

pyspider

或者

pyspider all

两者是一样的，新的pyspider框架已经整合了，所以使用pyspider就好

image

出现这个则说明运行成功，运行在5000端口，当然这个可以改

2.打开浏览器，输入

http://localhost:5000/

进入pyspider控制台

image

出现这个则说明你的框架没什么问题！！！

我把框架的执行分为了这么几部分

创建
执行
调试
结果
我们分别来一步步说一下
1.创建

image

点击create开始创建

image

弹出两个东西，project name 是你项目的名称 start url 是你要爬取的链接，分别输入以后，再次点击右下角的create，完成创建

image

整个右边部分，分为这么几个东西
1.右上角的save 是保存按钮，更改代码之后几点保存

2.左上角的#后面的是你创建的一些参数，如创建时间，爬取域名，编码格式等
3.下面的代码部分是创建项目自动生成的，你可以添加一些你自己的东西，我们在这里完成整个项目的爬取、解析、以及保存等工作
- crawl_config：项目的所有爬取配置统一定义到这里，如定义 Headers 、设置代理等，配置之后全局生效
- @every：设置定时爬取的时间
- on_start：爬取入口，初始的爬取请求会在这里产生
- self.crawl：该方法是爬取的主方法，被on_start调用，即可新建一个爬取请求，这里面有这么几个参数第一个参数是爬取的 URL ，这里自动替换成我们所定义的 URL ，还有个参数 callback ，它指定了这个页面爬取成功后用哪个方法进行解析，代码中指定为 Idex_page()方法，即如果这个 URL 对应的页面爬取成功了，那 Response 将交给 index_page （）方法解析
- index_page：方法接收这个 Response 参数，Response 对接了 pyquery 我们直接调用 doc()方法传入相应的css 选择器，就可以像 query 一样解析此页面，代码中默认是 a[href"="http ”］，也就是说该方法解析了页面的所有链接，然后将链接遍历，再次调用了 crawl （）方法生成了新的爬请求，同时再指定了 callback为detail_page ，意思是说这些页面爬取成功了就调用 detail_page方法解析这里，index_page （）实现了两个功能，一是将爬取的结果进行解析，二是生成新的爬取请求
- detail age：接收 Response 作为参数该方法抓取的就是详情页的信息，不会生成新的请求，只对 Response 对象做解析，解析之后将结果以字典的形式返回，将结果保存到数据库
image
点击左上角的pyspider可以返回主控制界面
右上角的run可以让程序开始运行
底边一排功能从左到右依次是 enable css selector helper：快捷替换css选择器 web：产看该URL下的web界面，html：产看该url下的HTML格式，follows：查看一共发起了多少个请求

2.执行点击run可以看到暂时执行后的结果
3.如果不正确，或者爬取信息有误，对右边代码部分进行调试
4.最后返回到控制界面，把status改成running，并点击后面的run按钮开始执行
分别显示5m、1h、1d5分钟一小时以及一天的爬取结果，绿色表示成功，红色表示请求次数太多而放弃，蓝色表示等待执行

一般的使用过程就是确定爬取的网站，创建项目，在crawl_config里进行配置，在index_page里确定要爬取的url，在detail_page里确定要爬取的数据信息

四、pyspider框架的架构和执行流程

1.pyspider框架的架构
pyspider的架构相对简单分为这么几个部分：scheduler（调度器）、fetcher（抓取器）、processor（脚本执行）任务由 scheduler发起调度，fetcher抓取网页内容， processor执行预先编写的py脚本，输出结果或产生新的提链任务（scheduler)、整个爬取的过程受，Monitor（监控器）的监控，结果保存在Result Worker（结果处理器）中。
2.每个 pyspider 的项目对应一个 Python 脚本，该脚本中定义了一个Handler 类，它有on_start (）方法爬取首先调用 on_start （）方法生成最初的抓取任务，然后发送给 Scheduler进行调度

3.执行流程

scheduler 将抓取任务分发给 Fetcher 进行抓取， Fetcher 执行并得到响应，随后将响应发送给Processer
Processer 处理响应并提取 url，新的 URL 生成新的抓取任务，然后通过消息队列的方式通知Schduler 当前抓取任务执行情况，并将新生成的抓取任务发送Scheduler 如果生成了提取结果，则将其发送到结果队列等待 Result Worker 处理
Scheduler 接收到新的抓取任务，然后查询数据库，判断其如果是新的抓取任务或者是需要重试的任务就继续进行调度，然后将其发送回Fetcher 进行抓取
不断重复以上流程实现抓取

五、出现错误

pyspider安装和使用出现的一些问题
 初学pyspider跳过的坑
基本上常见的错误都在这了！

参考链接：https://www.jianshu.com/p/39c7371dd6c2

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342