动手写爬虫(3):爬取赶集网二手物品信息

掌握了BeatifulSoup的基本用法之后，爬取单个网页实际上是比较简单的：只需要使用requests库中的get方法先向网页发出请求，用BeatifulSoup把网页转成soup，再对soup使用各种select方法，即可得到所需的网页元素，再稍做整理，即可得到所需的结构化内容。

那么，如果要爬取一系列的网页内容呢？
这就需要对爬取过程做一下调度准备了，下面以赶集网二手物品信息为例，介绍一下10万量级网页的爬取过程。

0.爬取目标

选择一个地市的赶集全部二手物品类目作为爬取目标，爬取其下所有二手物品页面、二手物品详细信息。

赶集二手物品类目.png

爬取目标.png

1.制定爬取过程策略

我们按照倒序来分析一下爬取过程
-最后一步：爬取最终的爬取页面，也就是上面的图二（爬取目标），存储所需信息
-倒数第二步：通过类目页面获取最后一步所需的最终页面的链接
-倒数第三步：想办法获取类目页面链接<-- 通过赶集首页-二手栏目，下方的二手物品类目，如上面图一。

我们再把这个过程正过来，也就是正常在赶集上找到对应物品信息的过程——爬取过程就是把这个找寻的过程重复再重复。

当然，上述处理过程中，需要将中间爬取的链接一步一步存储下来、一步一步再提取出来使用，并规避重复。

**大规模爬取信息过程**.png

2.动手开始爬！

过程明确了，实现起来就不复杂了。主要需要注意的是中间存url、取url的过程：注意避免重复——爬过的留一个已爬记录，爬前到这个记录里检查一下有没有，如果已爬，那就跳过！

（1）第一部分代码：获取类目信息


import requests
from bs4 import BeautifulSoup

headers = {
    'user-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}

home_url = 'http://xa.ganji.com/wu/'
wb_data = requests.get(home_url,headers = headers)
soup = BeautifulSoup(wb_data.text,'lxml')
#print(soup)

utag = soup.select('dl > dt > a[target="_blank"]')

url_list = ''

for item in utag:
    utag_tag = item.get('href')
    #print(utag_tag)
    url = 'http://xa.ganji.com{}'.format(utag_tag)
    url_list = url_list + url + '\n'
    print(url)

获取完后，把类目url存储为变量channel_list,备用。

（2）第二部分代码：两个获取页面信息的函数

这一步我们先写获取最终页面链接的函数、再写通过最终链接获取目标信息对应的函数。
函数1的参数有类目链接、子页面编码两个，在调用这个函数的时候，我们再去写对应的编码循环、类目循环。
函数2的参数只有最终页面链接一个。


import pymongo
import requests
from bs4 import BeautifulSoup
import time
from get_ori_url import channel_list,headers


client = pymongo.MongoClient('localhost',27017)
ganji = client['ganji']
#重新建立一个url集
urlset = ganji['urlset']
urlspideset = ganji['urlspideset']
second_info = ganji['second_info']

#step1: get the urls of secondhand
def get_urls(channel,pages):
    url_secondhands = '{}o{}'.format(channel,pages)
    time.sleep(6)
    print(url_secondhands)
    db_urls = [item['url'] for item in channel_sec.find()]
    if url_secondhands in db_urls:
        print('the',url_secondhands,'has spide already!')
        pass
    else:
        wb_data = requests.get(url_secondhands,headers = headers)
        soup = BeautifulSoup(wb_data.text,'lxml')
        #add the url into have spide
        channel_sec.insert_one({'url':url_secondhands})
        #add: if page error,then pass
        url_secondhand = soup.select('dd.feature > div > ul > li > a')
        for item in url_secondhand:
            url_s = item.get('href')
            urlset.insert_one({'url':url_s})
            print(url_s)
        # insert the url had spide into a set;

#step2: get the information we need from the secondhand pages

def get_item_info(url):
    time.sleep(2)
    db_urls = [item['url'] for item in urlspideset.find()]
    if url in db_urls:
        print('the url "',url,'"has aready spide!')
        pass
    else:
        wb_data = requests.get(url,headers=headers)
        soup = BeautifulSoup(wb_data.text,'lxml')
        title = soup.select('h1')
        pagetime = soup.select('div.col-cont.title-box > div > ul.title-info-l.clearfix > li:nth-of-type(1) > i')
        type = soup.select('div.leftBox > div:nth-of-type(3) > div > ul > li:nth-of-type(1) > span > a')
        price = soup.select('div > ul > li:nth-of-type(2) > i.f22.fc-orange.f-type')
        address = soup.select('div.leftBox > div:nth-of-type(3) > div > ul > li:nth-of-type(3)')
        # can't get the pv,need other method
        # pageview = soup.select('pageviews')
        for t1,p1,type1,price1,add1 in zip(title,pagetime,type,price,address):
            data = {
                'title':t1.get_text(),
                'pagetime':(p1.get_text().replace('发布','')).strip(),
                'type':type1.get_text(),
                'price':price1.get_text(),
                'address':list(add1.stripped_strings)
            }
            second_info.insert_one(data)
            print(data)
        urlspideset.insert_one({'url':url})

（3）第三部分代码：调用上述函数获取目标信息

首先是调用函数get_urls，通过类目信息，获取最终页面链接集：

from multiprocessing import Pool
from get_ori_url import channel_list
from spider_ganji import get_urls

def get_url_from_channel(channel):
    for num in range(1,71):
        get_urls(channel,num)

if __name__ == '__main__':
    pool = Pool()
    pool.map(get_url_from_channel,channel_list.split())

根据调用的函数，获取的链接会存储在MongoDB下的ganji库urlset表中。

再调用函数 get_item_info，逐个页面获取所需信息：


from multiprocessing import Pool
from spider_ganji import get_item_info
from spider_ganji import urlset
from spider_ganji import urlspideset

#get all urls need to spide:
db_urls = [item['url'] for item in urlset.find()]
#get the urls already spide:
url_has_spide = [item['url'] for item in urlspideset.find()]
x = set(db_urls)
y = set(url_has_spide)
rest_urls = x-y

if __name__ == '__main__':
    pool = Pool()
    pool.map(get_item_info,rest_urls)

这一步用了一点去除已爬页面的技巧：首先是爬的过程中将已爬取url记录下来（也可以存储在所爬信息库中），如果出现中断，用所有需爬取剔除已爬取，即可规避重复爬取问题。
（关于剔重、规避中断过程中出现的问题，应该还有更好的解决方案：先记录异常页面、跳过、继续爬，最后再处理异常页面应该更合适？）

3.总结

大道至简，问题的解决方案应该是简洁的，大规模的数据爬取也是一样：难点并不在于某几个页面怎么爬，而在于过程上的控制和调度：调度过程越清晰，实现起来越容易，实现过程中多翻翻文档就好了（虽然我也觉得文档看起来累，不过确实还得翻，就跟认字时翻字典一样——现在只需要翻“电子词典”已经很方便了！）

最后编辑于：2017.12.03 05:34:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342