Scrapy介绍:
一个python的爬虫框架。允许用户定义自己的spiders(蜘蛛)
特点:
1、 带有异步处理请求功能。
2、 可设置CPU使用率。
流程:
Items->Spiders->pipelines
构建->请求->储存
使用说明:
1.先startproject 创建一个项目
-- spiders name 这只蜘蛛的名称
-- 设置allowed_domains 允许蜘蛛爬取的域名范围
-- bash_url 第一个开始的url地址(似乎非必须)
- 在Scrapy中的items.py文件中定义储存器
-- 通过储存器来接受需要保存的数据
-- 定义储存器的语法:
---变量名称=scrapy.field()
---如:MaxName=scrapy.field()
---其中field()是scrapy的一种类型,还有其他许多类型。目前暂不做介绍 - 通过定义一个初始函数start_requests()来发送第一次请求
--设置请求的url
--使用yield()来返回数据
---Scrapy 自带的Requests(url,callback=function)函数来发生请求,类似python的requests库
---callback参数设置回调函数,即请求响应的内容发生给哪里。 - 定义一个新的函数,如data_response来接受响应的数据
--响应函数一定要写在Requests里的callback参数里,语法格式:self.函数名称
--将需要保存的数据赋值给itme的储存器
--语法:item['声明变量名称']=值
---如:item['MaxName']='马克思之谜'
-- 使用yield item 来返回item字典
5.在settings.py里启用ITEM_PIPELINES
--ITEM_PIPELINES里的数字为优先级,越大优先级越高
6.编辑pipelines.py
--这是系统自带的储存通道
--可此编写储存语句
--item的字典所有数据都会返回到这个通道里