之前跌跌撞撞学了一段时间爬虫,后来因为各种考试什么的就放下了,感觉很多的方法什么的,要用的时候才会熟练,当然知道原理也是很重要的,我感觉有些时候如果能熟练使用别人的工具,也不失为一种好的方法,所有我准备记录怎么使用scrapy 框架,以便日后要用的时候可以快速启动。
一。 Scrapy 的安装
pip install scrapy
这样一个简单的命令即可
检查是否已经安装好
看看命令有多少
这里解释一下每个命令的用途
bench 是 测试
fetch 是下载网页,返回源代码
genspider 是可以加入文件名和网址来创建一个新的爬虫
runspider 运行爬虫
settings 设置
shell 进入交互模式
startproject 创建一个新的项目
version 显示版本
view 用浏览器打开网页
scrapy 框架的理解
scrapy 有几个核心的组件
引擎
调度器
下载器
爬虫
中间件
管道
工作流程如下:
首先是spider 确定一个URL,用这个URL构造一个request对象,然后递交给引擎。request 只有进入调度器,排队,在到了以后进入下载器,下载器会根据request对象中的URL发送一次http请求到网站服务器,服务器返回一个response对象。这个对象之后被送往爬虫中定义的一个解析函数来解析,获得我们需要的数据之后,把提取的数据封装为ITEM, 然后递交给引擎,可能ITEM回去管道过滤处理一下,也可能又EXPORTER写入文件。如果解析函数在response中解析出了新的链接,那就构造出新的resquest 重复循环。