Scrapy学习笔记(3)-循环爬取以及数据库操作

前言

系统环境:CentOS7

本文假设你已经安装了virtualenv,并且已经激活虚拟环境ENV1,如果没有,请参考这里:使用virtualenv创建python沙盒(虚拟)环境,在上一篇文章(Scrapy学习笔记(2)-使用pycharm在虚拟环境中运行第一个spider)中我们已经能够使用scrapy的命令行工具创建项目以及spider、使用Pycharm编码并在虚拟环境中运行spider抓取http://quotes.toscrape.com/中的article和author信息, 最后将抓取的信息存入txt文件,上次的spider只能单页爬取,今天我们在上次的spider上再深入一下。

目标

跟踪next(下一页)链接循环爬取http://quotes.toscrape.com/中的article和author信息,将结果保存到mysql数据库中。

正文

1.因为要用Python操作MySQL数据库,所以先得安装相关的Python模块,本文使用MySQLdb

#sudo yum install mysql-devel

#pip install mysql-devel

2.在数据库中创建目标表quotes,建表语句如下:

CREATE TABLE `quotes` (

  `id` int(11) NOT NULL AUTO_INCREMENT,

  `article` varchar(500) DEFAULT NULL,

  `author` varchar(50) DEFAULT NULL,

  PRIMARY KEY (`id`)

) ENGINE=MyISAM DEFAULT CHARSET=utf8;

3.items.py文件详细代码如下:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class QuotesItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    article=scrapy.Field()

    author=scrapy.Field()

    pass

4.修改quotes_spider.py如下:

# -*- coding: utf-8 -*-

import scrapy

from ..items import QuotesItem

from urlparse import urljoin

from scrapy.http import Request

class QuotesSpiderSpider(scrapy.Spider):

    name = "quotes_spider"

    allowed_domains = ["quotes.toscrape.com"]

    start_urls = ['http://quotes.toscrape.com']

    def parse(self, response):

        articles=response.xpath("//div[@class='quote']")

        next_page=response.xpath("//li[@class='next']/a/@href").extract_first()

        for article in articles:

            item=QuotesItem()

            content=article.xpath("span[@class='text']/text()").extract_first()

            author=article.xpath("span/small[@class='author']/text()").extract_first()

            item['article']=content.encode('utf-8')

            item['author'] = author.encode('utf-8')

            yield item#使用yield返回结果但不会中断程序执行

        if next_page:#判断是否存在next链接

            url=urljoin(self.start_urls[0],next_page)#拼接url

            yield Request(url,callback=self.parse)

5.修改pipelines.py文件,将爬取到的数据保存到数据库

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from twisted.enterprise import adbapi

import MySQLdb

import MySQLdb.cursors

class QuotesPipeline(object):

    def __init__(self):

        db_args=dict(

            host="192.168.0.107",#数据库主机ip

            db="scrapy",#数据库名称

            user="root",#用户名

            passwd="123456",#密码

            charset='utf8',#数据库字符编码

            cursorclass = MySQLdb.cursors.DictCursor,#以字典的形式返回数据集

            use_unicode = True,

        )

        self.dbpool = adbapi.ConnectionPool('MySQLdb', **db_args)

    def process_item(self, item, spider):

        self.dbpool.runInteraction(self.insert_into_quotes, item)

        return item

    def insert_into_quotes(self,conn,item):

        conn.execute(

            '''

            INSERT INTO quotes(article,author)

            VALUES(%s,%s)

            '''

            ,(item['article'],item['author'])

        )

6.pipeline.py文件代码不变:

# -*- coding: utf-8 -*-

# Scrapy settings for quotes project

#

# For simplicity, this file contains only settings considered important or

# commonly used. You can find more settings consulting the documentation:

#

#    http://doc.scrapy.org/en/latest/topics/settings.html

#    http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

#    http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'quotes'

SPIDER_MODULES = ['quotes.spiders']

NEWSPIDER_MODULE = 'quotes.spiders'

# Obey robots.txt rules

ROBOTSTXT_OBEY = True

# Configure item pipelines

# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

  'quotes.pipelines.QuotesPipeline': 300,

}

7.开始运行spider

(ENV1) [eason@localhost quotes]$ scrapy crawl quotes_spider

8.检验结果,Done!

更多原创文章,尽在金笔头博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342