Scrapy抓取壁纸图片

1 安装Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

本文编写一个简单的Python 爬虫用于抓取http://desk.zol.com.cn/的部分壁纸。

开发环境是mac OS ,python 版本是2.7.

step1 需要先安装python 的虚拟环境。virtualenv可以搭建虚拟且独立的python环境，可以使每个项目环境与其他项目独立开来，保持环境的干净，解决包冲突问题。

  pip install virtualenv

创建一个虚拟且独立空间。env 是虚拟环境的名称

virtualenv env

启动虚拟环境（就是运行目录env/bin 下的activate 文件）

. env/bin/activate

step2 安装Scrapy。

pip install Scrapy

安装Python 图形处理库,下载图片时需要使用到这个库。

pip install Pillow

step3 创建项目 ,download 是项目名称。

scrapy startproject download

2 编写爬虫

定义抓取的Item。第一步是定义我们需要爬取的数据结构。

items.py

import scrapy   
class DownloadItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    image_urls = scrapy.Field() //图片的网址
    images = scrapy.Field() //图片信息 scrapy 自动获取的
    images_page_url = scrapy.Field()
    images_catalog = scrapy.Field() //图片的存放目录

编写网络爬虫。在spiders目录下新建一个文件dmoz_spider.py，用于编写爬虫逻辑。我使用Chrome浏览器的开发者工具对网站的结构进行分析，使用scrapy 选择器提取响应的信息。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
    
import scrapy
from download.items import DownloadItem
    
class DmozSpider(scrapy.Spider):
    name = "download"
    allowed_domains = ["zol.com.cn"]
    start_urls = [
        "http://desk.zol.com.cn/"
    ]
    
    def parse(self, response):
        #连接到图片内容页面
        for sel in response.xpath('//a[@class="pic"]'):
            shortUrl = sel.xpath('@href').extract()[0]
            url = response.urljoin(shortUrl)
            yield scrapy.Request(url, callback=self.parse_article) #连接到内容页的调用，在回调函数处理。
            
        #连接到图片内容页面
        for sel in response.xpath('//a[@class="title"]'):
            shortUrl = sel.xpath('@href').extract()[0]
            url = response.urljoin(shortUrl)
            yield scrapy.Request(url, callback=self.parse_article)
    
    #真正下载图片的处理函数
    def parse_article(self, response):
        item = DownloadItem()
        bigImgUrl = response.xpath('//img[@id="bigImg"]/@src').extract() #获取图片的URL
        
        item['image_urls'] = bigImgUrl
        item['images_page_url'] = response.url
        url = response.url
        catalog = url.split('_')[-3]
        catalog = catalog.split('/')[-1]
        item['images_catalog'] = catalog #获取图片的目录 用于存放图片
        yield item
    
        nextPageUrl = response.xpath('//a[@id="pageNext"]/@href').extract()[0] #下一页
        
        if nextPageUrl.index('.html') >= 0:
            url = response.urljoin(nextPageUrl);
            yield scrapy.Request(url, callback=self.parse_article)

3 保存图片

图片的保存需要用到Scrapy 的图片处理Pipe。在setting.py中设置。先使用scrapy.pipelines.images.ImagesPipeline保存图片，再使用自己编写的 download.pipelines.DownloadPipeline对图片分类处理。

在setting.py 中设置。

 BOT_NAME = 'download'
 
 SPIDER_MODULES = ['download.spiders']
 NEWSPIDER_MODULE = 'download.spiders'
 
 #同时使用图片和文件管道
 ITEM_PIPELINES = {
                   'scrapy.pipelines.images.ImagesPipeline': 1,
                   'download.pipelines.DownloadPipeline':2,
                   }
 IMAGES_STORE = '/Users/superzhan/Documents/project/python/Scrapy/download/' # 图片存储路径

爬虫抓去到的数据需要通过pipelines 来分类保存。在pipelines.py 中对下载到的图片进行分类保存。

# -*- coding: utf-8 -*-
 
 import os
 import shutil
 
 class DownloadPipeline(object):
 
     #move file
     def process_item(self, item, spider):
         curPath = '/Users/superzhan/Documents/Project/python/Scrapy/download/'
         
         #分类后的图片目录
         targetPath ='/Users/superzhan/Documents/Project/python/Scrapy/download/Img/'
 
          #创建分类目录
         catalog = item['images_catalog']
         targetCatalog = os.path.join(targetPath,catalog)
         if False == os.path.exists(targetCatalog):
             os.mkdir(targetCatalog)
         
         images_path= item['images'][0]['path']
         full_image_path = os.path.join(curPath,images_path)
         target_image_path = os.path.join(targetCatalog,full_image_path.split('/')[-1])
         
         #分类
         shutil.move(full_image_path,target_image_path)
 
         return item

最后切换到项目的根目录，执行
```
scrapy crawl download -o items.json
```
开始抓取图片。

4 代码下载

百度网盘https://pan.baidu.com/s/1nv32Y6l

实际使用时需要修改setting.py和pipelines.py的下载路径。

5 参考资料

官方文档 http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html
Scrapy笔记系列 http://www.pycoding.com/2016/03/08/scrapy-01.html

最后编辑于：2017.12.04 09:57:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,045评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,114评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,120评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,902评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,828评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,132评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,590评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,258评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,408评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,335评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,385评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,068评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,660评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,747评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,967评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,406评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,970评论 2赞 341