[Python3]selenium爬取淘宝商品信息

前言

前面介绍了使用selenium和chromedriver通过模拟浏览器运行的方式可以做到在浏览器中看到是什么样，抓取的源码就是什么样。不用再去管网页内部的JavaScript是如何渲染页面，也不用管网页后台的Ajax接口有哪些参数，甚至是加密规律等。这篇博客是实战演练，通过Selenium爬取淘宝网商品的图片，名称，价格，购买人数，店铺名称，店铺所在地信息，将结果保存至Mongodb数据库中。

Chromedriver for linux

上一篇博客只介绍了chromedriver在windows下的安装

http://yhch.xyz/2018/07/08/Python3%E7%88%AC%E8%99%AB-selenium-chromedriver%E5%8F%AF%E8%A7%81%E5%8D%B3%E5%8F%AF%E7%88%AC/

对应版本的下载和测试安装是方法是一样的

//解压
unzip chromedriver_linux64.zip
//移动到环境变量所在的目录
sudo mv chromedriver /usr/bin

//或者将chromedriver所在目录，添加到环境变量
export PATH="$PATH:所在目录"
//执行新的配置
source ~/.porfile

分析一波

1.ajax请求分析

pic1

_ksTS,rn这两个参数很难发现其规律，所以这里不采用构造Ajax请求的方式来爬取内容，而通过selemium价格网页最终呈现效果的HTML代码全部爬取下来，再来提取所要信息

2.商品分析

pic2

需要说明的是src 和data-src都是商品图片的网络地址,区别是前者是缩略图而后者是高清大图，两者都可以任意爬取，这里爬取的是后者

3.页码分析

pic3

这里不点击下一页，而是通过自动输入页面数来进行页面跳转，一方面是要实时监控爬取到多少页，另一方面，当程序出现异常，下一次运行又从第一页开始，下一页依次爬取，数据库中，会有重复记录

code

1. 获取商品列表

import pymongo
from selenium import webdriver
from selenium.common.exceptions import  TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from urllib.parse import quote
from pyquery import  PyQuery as pq

driver = webdriver.Chrome()
wait = WebDriverWait(driver,10)


KEYWORD = 'iMac'

def index_page(page):
    print('正在爬取第',page,'页')
    try:
        url = 'https://s.taobao.com/search?q='+quote(KEYWORD)
        driver.get(url)
        if page > 1:
            input = wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR,
                                                '#mainsrp-pager    div.form > input')))
            submit = wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR,
                                        '#mainsrp-pager div.form > span.btn.J_Submit')))
            input.clear()
            input.send_keys(page)
            submit.click()
        wait.until(
            EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager li.item.active > span'),str(page))
        )
        wait.until(
            EC.presence_of_element_located((
                By.CSS_SELECTOR,'.m-itemlist .items .item')))
        get_products()
    except TimeoutException:
        index_page(page)

通过构造查询参数，得到淘宝网的搜索URLhttps://s.taobao.com/search?q=iMac,q后面接你要搜索的关键词。就能够跳转到搜索指定商品后的页面，也是程序的入口URL
通过改变EYWORD的值，就能爬取不同商品信息;拼接URL的时候用到quote方法，屏蔽特殊字符串，如空格等，URL地址里是不含空格的，同时将字符串转换为URL编码格式，以保证URL的正确性。

下面代码等待加载时，使用了WebDriverWait对象，指定等待条件和10s的最长等待时间，如果在这个时间内页面元素成功加载出来了，就相应结果并继续向下执行，否则抛出超时异常。EC.presence_of_element_located是元素成功加载出来，EC.presence_of_element_located 意思是元素可以点击，因为它是一个按钮，这个按钮的作用是选定页码后的点击确定后跳转。

为了验证跳转到了对应的页码，需要判断当前高亮的页码数是当前的页码数(当前所在页码会高亮显示,也就是说当前页码的css是特殊的)，所以这里使用了另一个等待条件text_to_be_present_in_element，它会等待指定的文本出现在某一个节点里面时即返回成功。这里我们将高亮的页码节点对应的CSS选择器和当前要跳转的页码通过参数传递给这个等待条件，这样它就会检测当前高亮的页码节点是不是我们传过来的页码数，如果是，就证明页面成功跳转到了这一页，页面跳转成功。

这样刚才实现的index_page()方法就可以传入对应的页码，待加载出对应页码的商品列表后，再去调用get_products()方法进行页面解析。

这些等待条件的参数都是特定的css选择器，不做赘述了，图片已经标注的很清楚了

2.解析商品列表

def get_products():
    html = driver.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
    for item in items:
        product = {
            'image' : item.find('.pic .img').attr('data-src'),
            'price' : item.find('.price').text(),
            'deal' : item.find('.deal-cnt').text(),
            'title' : item.find('.title').text(),
            'shop': item.find('.shop').text(),
            'location':item.find('.location').text()
        }
        print(product)
        save_to_mongo(product)
        print('\n')

通过driver.page_source 获得了不同页码下完整html源码;同时使用Pyqurey来解析网页，通过已经查找的标签，查找这个标签下的子标签或者父标签，而不用从头开始查找，效率更高;通过find(css).属性方法,获取图片URL,和其他文本信息并构造成Json字符串，调用save_to_mongo函数存入数据库中。

3.将结果保存到Mogodb中

def save_to_mongo(result):
    client = pymongo.MongoClient('mongodb://admin:admin123@localhost:27017/')
    db = client['taobao']
    collection = db['products']
    try:
        if collection.insert(result):
            print("成功保存到MongoDB")
    except Exception:
        print('someing wrong with MongDB')

python3通过认证方式连接Mongodb数据库，admin是我的用户名，admin123是我的密码，接着指定数据库和集合，调用insert方法插入数据。

4.定义爬取页数

def main():
    MAX_PAGE = 100
    for i in range(1,MAX_PAGE+1):
        index_page(i)
    driver.close()

if __name__ =='__main__':
    main()

简单for循环，并通过range生成1到100的数传递给index_page函数。

5.完整代码

import pymongo
from selenium import webdriver
from selenium.common.exceptions import  TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from urllib.parse import quote
from pyquery import  PyQuery as pq

driver = webdriver.Chrome()
wait = WebDriverWait(driver,10)


KEYWORD = 'iMac'

def index_page(page):
    print('正在爬取第',page,'页')
    try:
        url = 'https://s.taobao.com/search?q='+quote(KEYWORD)
        driver.get(url)
        if page > 1:
            input = wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR,
                                                '#mainsrp-pager    div.form > input')))
            submit = wait.until(
                EC.element_to_be_clickable((By.CSS_SELECTOR,
                                        '#mainsrp-pager div.form > span.btn.J_Submit')))
            input.clear()
            input.send_keys(page)
            submit.click()
        wait.until(
            EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager li.item.active > span'),str(page))
        )
        wait.until(
            EC.presence_of_element_located((
                By.CSS_SELECTOR,'.m-itemlist .items .item')))
        get_products()
    except TimeoutException:
        index_page(page)

def get_products():
    html = driver.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
    for item in items:
        product = {
            'image' : item.find('.pic .img').attr('data-src'),
            'price' : item.find('.price').text(),
            'deal' : item.find('.deal-cnt').text(),
            'title' : item.find('.title').text(),
            'shop': item.find('.shop').text(),
            'location':item.find('.location').text()
        }
        print(product)
        save_to_mongo(product)
        print('\n')


def save_to_mongo(result):
    client = pymongo.MongoClient('mongodb://admin:admin123@localhost:27017/')
    db = client['taobao']
    collection = db['products']
    try:
        if collection.insert(result):
            print("成功保存到MongoDB")
    except Exception:
        print('someing wrong with MongDB')
        

MAX_PAGE = 100
def main():
    for i in range(1,MAX_PAGE+1):
        index_page(i)
    driver.close()


if __name__ =='__main__':
    main()

小结

这段程序是对以前所学知识的综合利用，Mongodb是前几天现学现用，这是我第一次使用，关系型数据库Oracle,Sql server,Mysql都用过，基本知识也有掌握，非关系型数据库
Mongodb以后可能会写几篇学习笔记

运行结果

1，输出结果

pic4

2.查看mongodb中存入的数据

pic5

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342