SCRAPY解----草译一篇得雨帝（Gotrained）的讲义，供参考2019-03-04

文章原文地址：https://python.gotrained.com/scrapy-tutorial-web-scraping-craigslist/

爬的目标网站；Craigslist

爬虫初步

安装：pip install scrapy，用苹果或李牛的高端用户需要在前面加上sudo

创建项目

Scrapy startproject craigslist

craigslist是项目名称。

创建一只小蛛蛛（SPIDER）

在终端进入文件夹craigslist，使用genspider命令，建立一个小蛛蛛。

如在这个项目中，我们用如下命令：

scrapy genspider jobs https://newyork.craigslist.org/search/egr

编辑小蛛蛛

在craiglist文件夹，你可以看出项目的文件情况：

现在你会发现在，在spiders文件夹里，有一个名为job.py的文件，就是我们刚刚创建的小蛛蛛。

打开编辑器，开始编辑这个东东：

# -*- coding: utf-8 -*-

import scrapy

class JobsSpider(scrapy.Spider):

name = "jobs"

allowed_domains = ["craigslist.org"]

start_urls = ['https://newyork.craigslist.org/search/egr']

def parse(self, response):

pass

解释一个这个文件：

name，是我们给这个小蛛蛛起的名字，这个小蛛蛛名为jobs

allowed-domains列出了小蛛蛛可以活动的范围

start_urls列出了一个或多个小蛛蛛开起运动的起点。

Parse是小蛛蛛的主函数，注意，不要，千万不要改这个函数的名字。如有所需，你可以增加其他函数。

提示：如果你用和讲义相同的方法创建了小蛛蛛，它会自己在start_urls中加上http://，一定要注意检查，如果出现了重复的http://，虫子不会正常运动。

最简单的一只，单项爬虫

删除pass，在函数中加入以下行：

titles = response.xpath('//a[@class="result-title hdrlnk"]/text()').extract()

啥意思？

titles是根据一定的规则解析出来的内容组成的列表

response是一个命令，获取整个页面的HTML。如果：

print(response)

你得到什么结果？

<200 http://*****>

星号代表你请求的链接。

如果：

print(response.body)

你则会得到页面主体的代码。

你可以用xpath()来解析。命令为：

response.xpath()

Xpath是个复杂的话题，但有个简单的方法让你得到相应的xpath，打开你的Chrone浏览器，复制刚才的链接，选取相应的页面元素，单击右键，选取“检查”（inspect）

你就会看到这部分元素的HTML代码，如：

<a href="/brk/egr/6085878649.html" data-id="6085878649" class="result-title hdrlnk">Chief Engineer</a>

这是一个链接，链接文字是“Chief Engineer” ，可以用text()查看。

其class被标为：result-title hdrlnk

用extract()可以获取列表中的项。

我们要把title项显示出来：

print(titles)

于是这个小蛛蛛的完整代码是：

# -*- coding: utf-8 -*-

import scrapy

class JobsSpider(scrapy.Spider):

name = "jobs"

allowed_domains = ["craigslist.org"]

start_urls = ['https://newyork.craigslist.org/search/egr']

def parse(self, response):

titles = response.xpath('//a[@class="result-title hdrlnk"]/text()').extract()

print(titles)

动起来，虫子

在终端项目文件夹下，输入以下命令，开动虫子。

scrapy crawl jobs

Jobs是这个虫子的名字。

终端将列表结果打印出来。

接下来，我们可以用yield命令，将列表中的内容取出来，放入一个字典：

for title in titles:

yield {'Title': title}

于是这个虫子的完整美图如下：

# -*- coding: utf-8 -*-

import scrapy

class JobsSpider(scrapy.Spider):

name = "jobs"

allowed_domains = ["craigslist.org"]

start_urls = ['https://newyork.craigslist.org/search/egr']

def parse(self, response):

titles = response.xpath('//a[@class="result-title hdrlnk"]/text()').extract()

for title in titles:

yield {'Title': title}

将爬取的结果存到CSV等类型的文件里

可以在前述爬虫运行命令后加上 -o 指定文件名，将结果存入相应文件，文件类型包括csv，json，xml。

如

scrapy crawl jobs -o result-titles.csv

第二只，单页爬虫

如果你想得到与工作有关的其他项目，你是不是应该多写几个单项爬虫，来让它们完成不同的工作？

答案是否定的，你不必如此。你可以把页面每一个工作相关的元素的容器抓取下来，解出其中的项目。

例如，在这个页上，https://newyork.craigslist.org/search/egr

你查看元素，会看到如相内容：

在页上，有列表项（li）标志，前面有个小三角，点击，可以展开每个列表项，在其中，包含你需要的与该项工作有关的全部信息，你可以把这个列表项视为封套或容器。

Li标签的class被指定为“result-row”，在其中，包括一个链接，还有一个段落标签（p），这个标签的class被指定为”result-info”，我们把这人容器拿出来，就需要在爬虫函数里写下：

jobs = response.xpath('//p[@class="result-info"]')

然后解出其中的title项目：

for job in jobs:

title = job.xpath('a/text()').extract_first()

yield{'Title':title}

这是一个循环，其中，你无需再用response了，你使用了一个名为job的选择项。在解析容器时，我们用的是//，指示xpath是从<html>直到<p>，而现在，我们则不用//，因为现在的选择是以jobs为基础的。你也可以用.//

我们使用extrat_first()，而不是extract()，因为我们只想得一次得到一个值。

现在我们添加其他项目：

for job in jobs:

title = job.xpath('a/text()').extract_first()

address = job.xpath('span[@class="result-meta"]/span[@class="result-hood"]/text()').extract_first("")[2:-1]

relative_url = job.xpath('a/@href').extract_first()

absolute_url = response.urljoin(relative_url)

yield{'URL':absolute_url, 'Title':title, 'Address':address}

我们加入了address等项目。注意，通过xpath我们得到的是一个相对链接，我们需要用response.urljion()转换成完整的链接。

第三只虫子：多页虫子

在内容比较多时，网站采取了分页技术，这样，我们有必要通过获取“下一页”的地址，将所有的项目都拿下来。

在这个页面上，下一页next的HTML代码是这样的：

于是，我们在第二只虫子的基础上，加入以下代码，取得下一页的链接，传到主函数self.parse，让它继续获取其中的项目。

relative_next_url = response.xpath('//a[@class="button next"]/@href').extract_first()

absolute_next_url = response.urljoin(relative_next_url)

yield Request(absolute_next_url, callback=self.parse)

你也可以不写callback=self.parse，因为这是默认的。

另外，由于使用了Request，我们必须将它引入：

From scrapy import Request

注意，R是大写。

运行下，可以得到更多的结果。

第四只虫子获取详细页内容

下面，我们要让小蛛蛛打开其获取的链接，然后从中取出有关工作的描述。在第三只虫子基础上，我们继续以下内容。第三只虫子让我们得到了绝对链接，标题和地址：

yield{'URL':absolute_url, 'Title':title, 'Address':address}

我们要建立一个函数，把已经取得的链接传递给它，让它获得详细页，这个函数我们将它命名为parse_page()。我们还将用meta.get()传递已经取得的项目。

yield Request(absolute_url, callback=self.parse_page, meta={'URL': absolute_url, 'Title': title, 'Address':address})

这个函数总体是这样的：

def parse_page(self, response):

url = response.meta.get('URL')

title = response.meta.get('Title')

address = response.meta.get('Address')

description = "".join(line for line in response.xpath('//*[@id="postingbody"]/text()').extract())

compensation = response.xpath('//p[@class="attrgroup"]/span/b/text()')[0].extract()

employment_type = response.xpath('//p[@class="attrgroup"]/span/b/text()')[1].extract()

yield{'URL': url, 'Title': title, 'Address':address, 'Description':description}

你已经注意到了，我们加入了一个变量，discription，由于工作描述可能多于一个段落，所以要用jion（）把它们合起来。

同样的，我们加入comensation，以及employment_type。

设置settings.py

可以设置CSV的输出：

FEED_EXPORT_FIELDS = ['Title','URL', 'Address', 'Compensation', 'Employment Type','Description']

可以设定代理，让你的虫子运动看起来像个正常的浏览行为。

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1'

可以设定迟延，如3秒或在一定区间。

完整代码：

import scrapy

from scrapy import Request

class JobsSpider(scrapy.Spider):

name = "jobs"

allowed_domains = ["craigslist.org"]

start_urls = ["https://newyork.craigslist.org/search/egr"]

def parse(self, response):

jobs = response.xpath('//p[@class="result-info"]')

for job in jobs:

relative_url = job.xpath('a/@href').extract_first()

absolute_url = response.urljoin(relative_url)

title = job.xpath('a/text()').extract_first()

address = job.xpath('span[@class="result-meta"]/span[@class="result-hood"]/text()').extract_first("")[2:-1]

yield Request(absolute_url, callback=self.parse_page, meta={'URL': absolute_url, 'Title': title, 'Address':address})

relative_next_url = response.xpath('//a[@class="button next"]/@href').extract_first()

absolute_next_url = "https://newyork.craigslist.org" + relative_next_url

yield Request(absolute_next_url, callback=self.parse)

def parse_page(self, response):

url = response.meta.get('URL')

title = response.meta.get('Title')

address = response.meta.get('Address')

description = "".join(line for line in response.xpath('//*[@id="postingbody"]/text()').extract())

compensation = response.xpath('//p[@class="attrgroup"]/span[1]/b/text()').extract_first()

employment_type = response.xpath('//p[@class="attrgroup"]/span[2]/b/text()').extract_first()

yield{'URL': url, 'Title': title, 'Address':address, 'Description':description, 'Compensation':compensation, 'Employment Type':employment_type}

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,242评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,769评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,484评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,133评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,007评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,080评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,496评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,190评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,464评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,549评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,330评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,205评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,567评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,889评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,160评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,475评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,650评论 2赞 335

SCRAPY解----草译一篇得雨帝（Gotrained）的讲义，供参考2019-03-04

创建一只小蛛蛛（SPIDER）

编辑小蛛蛛

最简单的一只，单项爬虫

动起来，虫子

第二只，单页爬虫

第三只虫子：多页虫子

设置settings.py

完整代码：

推荐阅读更多精彩内容