第四阶段 爬虫整理

爬虫概述

爬虫案例

案例1:爬取百度贴吧数据

分析:GET方式爬取数据
抓包:
设计:
实现:

案例2:抓妹子图

分析:GET方式爬取Ajax 数据
抓包:
设计:
实现:

案例3:爬取豆瓣电影数据

分析:POST方式爬取Ajax数据
抓包:
设计:
实现:

抓QQ空间数据

分析:登陆才能访问
抓包:
设计:
实现:

任务:总结!!

爬虫进阶 + 正则

目标

掌握自定义数据请求方式的开发步骤
掌握自定义数据请求方式----代理请求
了解自定义密码管理处理方式
掌握自定义cookie管理处理方式

常规数据爬取方式

数据get请求方式
Ajax 数据 get 请求方式
Ajax数据post请求方式
Cookie模拟账号登陆方式请求受限数据
核心:代码的设计开发(数据封装和请求头设置)

常规数据请求方式(掌握)
urllib2.urlopen(url, data, headers)

自定义数据请求方式(掌握)

headler = urllib2.HTTP/HTTPSHandler()
opener = urllib2.build_handler(handler)
opener.open(request)

自定义代理请求方式(掌握)

urllib2.ProxyHandler({
  "http":"ip:port"
})

urllib2.ProxyHandler({
  "http":"user:pass@ip:port"
})

密码管理器(了解)

HttpPassWordMgrWithDefaultRealm()
1. ProxyBasicAuthHandler() #授权代理处理器
2. HttpBasicAuthHandler() #验证web客户端授权处理器

Cookie 模拟登陆

cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcess(cookie)

加载全局opener(掌握)

urllib2.install_opener(opener)
urllib2.urlopen(..)

任务:
总结自定义处理器的几种操作方式和应用场景
查找目标URL进行数据的爬取练习

6爬虫高级 ----Scrapy入门

目标

  • 爬虫概述:
  • Scrapy概述:
  • 入门程序:

关于爬虫

  • 有数据的地方,就会有爬虫,有爬虫的地方就会有反爬虫
  • 尽量减少请求次数
  • 爬虫的战场,不止在web,在一切需要网络数据的地方
  • 常规数据反爬虫操作,止步于IP
  • 在有性能的要求下,尽量使用多线程或者框架完成爬虫程序

scrapy 概述

  • 纯Python开发实现的一个爬虫框架
  • 包含爬取数据、提取结构性数据、应用框架
  • 底层通过Twisted异步网络框架处理网络通讯
  • 可扩展、高性能、多线程、分布式爬虫框架

Scrapy体系结构

  • Scrapy Engine(引擎组件):
    负责Spider、ItemPipeline、Downloader、Scheduler的工作调度、信息通讯、数据传递等工作

  • Scheduler(调度组件):
    负责接收引擎传递过来的请求,按照具体规则添加队列处理,最终返回给引擎

  • Downloader(下载组件):
    负责下载引擎传递过来的所有Request请求,最终服务器的响应数据返回给引擎组件

  • Spider(爬虫):
    处理所有Response响应,分析提取Item数据
    如果数据中有二次请求,继续交给引擎组件

  • ItemPipeline(管道):
    负责[分析、过滤、存储]处理由Spiders获取到的Item数据

Scrapy安装

  • Windows
    pip install scrapy
  • ubuntu
    apt-get install python-dev python-pip libxml12-dev libxstl1-dev
    zlig1g-dev libssl-dev
    pip install scrapy
  • mac os
    官方:建议不要使用自带的Python环境
    安装:参考官方文档

Scrapy 爬虫项目的创建

scrapy startproject <spider_name>

scrapy 项目结构

|-- tutorial/                       # 项目文件夹
    |-- scrapy.cfg                     # 项目发布配置
    |-- tutorial/                   # 项目模块
        |-- __init__.py                # 模块描述文件
        |-- items.py                # 项目item数据定义文件
        |-- pipelines.py                   # 项目pipelines定义文件
        |--settings.py                # 项目全局配置
        |-- spiders/                # 爬虫模块<开发>
            |-- __init__.py           # 模块描述文件

scrapy 创建爬虫

scrapy genspider example example.com

scrapy 爬虫手工开发
scrapy 创建项目

scrapy startproject qikuspider

scrapy 封装item数据

/qikuspider/item.py
  class Qikuspider(scrapy.Item):
    name = scrapy.Field()
    intro = scrapy.Field()

scrapy 创建爬虫处理类

/qikuspider/spider/QikuSpider.py

  class QikuSpider(scrapy.Spider):
    name = "qikuspider"
    allow_domains = "http://www.qikuedu.com"
    start_urls = (http://www.qikuedu.com/#,)
    def parse(self, response):
      print(response.body)

启动爬虫

scrapy crawl qikuspider

关于那个错误

Item 数据封装

/qikuspider/spider/QikuSpider.py
from qikuspider.items import QikuspiderItem
  def parse(self, response):
    t_l = response.xpath(..)
    ''
    t_items = {}
    item = QikuspiderItem()
    ''
    return t_items

pycharm 中运行scrapy爬虫

  • 程序启动脚本
    关于scrapy.cmdline
    执行命令 cmdline.execute("command".split())

任务

  • 爬取百思不得姐 图片
  • 爬取糗事百科 段子
  • 爬取起点中文网 小说
  • 爬取智联招聘Python相关职位(单页)

7爬虫高级 ---- Scrapy.Spider

目标

  • Scrapy Shell 的使用
  • Ubuntu 下爬虫开发
  • 深度爬虫:CrawlSpider
    scrapy 核心处理
  • scrapy.Item
  • scrapy.Spider
  • yield
  • scrapy.Request(url, callback=...)
    Spider
  • 爬虫基础类:所有的爬虫程序必须继承这个类
  • 核心处理:定义爬取网页的动作及结构化数据提取的操作
  • 源码分析
    Scrapy shell
  • 爬虫测试专用命令行
  • 语法:scrapy shell "target_url"
  • 返回数据:response
  • 操作数据:response.body 等
    response数据筛选
  • xpath(): 通过传入的xpath表达式筛选数据
  • extract():序列化节点列表,返回Unicode字符串
  • css(): 通过传入的css选择器筛选数据
  • re(): 通过传入的正则表达式股则筛选数据
    Ubuntu下爬虫程序的开发
  • Python版本切换
  • scrapy 的安装
  • 创建爬虫程序:爬取中华英才网招聘信息
    深度爬虫:CrawlSpider
  • scrapy.spiders.CrawlSpider
  • 创建项目:scrapy startproject <project_name>
  • 创建爬虫:scrapy genspider -t crawl <spider_name><domains>
  • 核心处理规则:from scrapy.spider import CrawlSpider,Rule
  • 核心处理提取:from scrapy.linkextractors import LinkExtrator
    链接提取:LinkExtractor
class scrapy.contrib.linkextractor.sgml.SgmlLinkExtractor(
    allow = (),         # 符合正则表达式参数的数据会被提取
    deny = (),          # 符合正则表达式参数的数据禁止提取
    allow_domains = (),     # 包含的域名中可以提取数据
    deny_domains = (),      # 包含的域名中禁止提取数据
    deny_extensions = (),       
    restrict_xpath = (),        # 使用xpath提取数据,和allow共同起作用
    tags = (),          # 根据标签名称提取数据
    attrs = (),         # 根据标签属性提取数据
    canonicalize = (),
    unique = True,          # 剔除重复链接请求
    process_value = None
)

爬取规则:rules

rules = [
    Rule(
        link_extractor,     # LinkExtractor对象
        callback=None,      # 请求到响应数据时的回调函数
        cb_kwargs=None,     # 调用函数设置的参数
        follow=None,        # 是否从response跟进链接:不要指定为parse
        process_links=None, # 过滤linkextractor列表,每次获取列表时都会调用
        process_request=None    # 过滤request,每次提取request都会调用
    )
] 

深度爬虫:案例开发
爬取中华英才网Python所有岗位信息

章节任务

  • Ubuntu环境下爬取智联招聘Python相关职位(多页)
  • Ubuntu环境下爬取中华英才网
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容