爬虫小白:03.requests的使用

一、requests库

安装:pip install requests
导包:import requests

1.requests库的使用:

(1).请求方法:

    Requests的请求不再像urllib一样需要去构造各种Request、opener和handler,直接使用Requests构造的方    
法,并在其中传入需要的参数即可。
    
   每一个请求方法都有一个对应的API:
①发送GET请求:get()方法
    response = requests.get('http://httpbin.org/get')
    print(response)      #返回的是<Response [200]>。
    print(response.text) #获取响应内容,一般情况下会自动解码成字符串

   #当然我们也可以通过response.encoding指定编码格式
    response.encoding = 'utf-8'
    print(response.encoding)    #通过这看编码格式
②发送POST请求:post()方法

POST请求请求可通过 data参数,字典格式,传入表单数据。

    response = requests.post('http://httpbin.org/post',data = {'key':'value'})
    print(response.text)

   '''
      其实data就是要填入表单的数据,说到这是不是和urllib3中post请求的fields参数一样是字典且填入form表
      单,而get请求的fields参数是直接作为查询参数添加到url后。
    '''

(2).requests响应: 返回值

1.响应内容: text属性
    通过Requests发起请求获取到的是一个 requests.models.Response 对象,通过这个对象我们可以很方便的获取响应的内容。
    之前通过 urllib 获取的响应的内容都是 bytes的二进制格式,需要我们自己去将结果 decode()一次转换成字符串数据。而Requests通过text属性,就可以获得字符串格式的响应内容。
    例1:
    response = requests.get('http://www.quanshuwang.com')
    print(response.text)
    
    #回忆一下乱码怎么办,response.encoding = '**',**得看html中得charset是什么。
    response.encoding = 'utf-8' #字符编码
2.二进制数据:content属性
    *若想要获得原始得二进制数据,比如说图片,使用 content 属性即可。
    例1:爬取图片,如图 2-1、2-2。
        response = requests.get('图片地址')
        with open('image.jpg','wb') as f:
            f.write(response.content)
3.json数据:json()方法
    *若访问之后获取的是json数据,那么我们可以使用 json() 方法,直接获取转换成字典格式的数据。
    例1:爬取图片
        
        response = requests.get('http://httpbin.org/get')
        print(response.json())
        print(type(response.json() ) )
4.状态码:status_code 属性
    *通过 status_code 属性获取响应的状态码.
    例1:     
        response = requests.get('')
        print(response.status_code)  
5.响应报头:headers 属性
    *通过 headers 属性获取响应的报头。
    例1:
        response = requests.get('')
        response.headers        #快捷方式 
        response.request.headers #完整写法
        print(type(response.headers))
        #返回的是<class 'requests.structures.CaseInsensitiveDict'>
        
        print(response.headers['Set-COOKIE']) #注意键名不区分大小写,键值是区分的。
6.服务器返回的Cookies: cookies 属性
    *通过 cookies 属性获取服务器返回的Cookies。
    例1:
        # http://httpbin.org/get没有cookie
        response = requests.get('http:/www.baidu.com')
        print(response.cookies)      
7.查看请求的 url:url属性
    #通过 url 属性查看请求的 url。
    print(requests.url )  #返回请求url,这个是快捷方式。

    response.request.url  #响应是没有url的,只有数据

(3)请求的十大参数: 参数

1、url:目标数据的统一资源定位符,字符串。
    例、
    img_url = "https://zhidao.baidu.com"
    response = requests.get(url = img_url)
2.params : 传递请求参数 , 字典形式。

传递 url 参数也不用再像urllib中那样需要去拼接URL,而是简单的,构造一个字
典,并在请求时将其传递给 params 参数。

    例1:
        
        args = {'key1':'好好学习','key2':'天天向上'}
        response = requests.post('http://httpbin.org/post',params = args )
        print(response.text)        #获取响应数据,为字符串类型。
        print(response.request.url) #看拼接的结果
        print(response.url)         #

有时候会遇到相同的url参数名,但有不同的值,而python的字典又不支持键的重名,那么我们可以把键的值用 列表 表示。

        例1:
            args = {'key1': 'value1', 'key2': ['value2', 'value3']}
            response = requests.get('http://httpbin.org/get', params=args)
            print(response.url)
            结果: http://httpbin.org/get?key1=value1&key2=value2&key2=value3
3.data : 传递表单数据 , 字典形式。
     info = {'username':'wsq','password':'123'}               
     response = requests.post('http://httpbin.org/post',data = info)            
4.headers : 自定义请求头(Headers) , 字典形式。
    *若想自定义请求的Headers,同样的将字典数据传递给headers参数。
    例:
    headers = {'Www':'wWqQ'}
    response = requests.post('http://httpbin.org/post',data = info,params = args 
                                                        headers = headers)
    #只需填一个参数即可,注意是字典格式
    print(response.request.headers)#查看请求头

    print(response.request.headers['wWw'])#查看请求头中某一个键值,注意键名不区分大小写而键值是区分                                             的。
5.cookies : 自定义Cookie, 字典形式。

Requests中自定义Cookies时也不用再去构造CookieJar对象,直接将字典传递给cookies参数即可。

    例:
    cookie = {'key1': 'value1'}
    response = requests.post('http://httpbin.org/post',data = info,params = args 
                                                        headers = headers,
                                                        cookies = cookie) 
    print(response.cookies)#看它的cookie,若没设置返回的是<RequestsCookieJar[]>是空的。
6.设置代理: proxies , 字典形式。

代理:意味着客户端发送请求给代理,代理替客服端发送请求到服务端。
当需要代理时,同样构造代理字典,传递给参数 proxies。

    例1:
    proxy = {
        'http':'http://182.11.66.999:8000'
        #这里可以有很多个http或者https,这就涉及了代理池。
    }
    response = requests.get('http://httpbin.org/ip',proxies = proxy)
    #用代理发送get请求到ip接口
    print(response.text) #这时返回的是ip地址,这个ip就是代理的,保护了自身ip。
7.allow_redirects重定向: 默认为True,设置为False,关闭。

在网络请求中,常常遇到状态码是 3 开头的重定向问题,在Requests中是默认开启允许重定向的,也就是遇到重 定向问题,会自动继续访问。

    例1:
        response = requests.get('http://github.com')
        print(response.url)#这时显示的是https的地址
        
        response = requests.get('http://github.com',allow_redirects=False)
        #加上参数allow_redirects并赋值为False,意味着不允许重定向。
        print(response.text)#这个打印的结果是没有的,
        print(response.headers)#响应头中会看到键名为Location的键值对,这就是重定向地址,在JS中....如                               图6-1、6-2
8.verify: 证书验证 , 默认为None,当遇到例如SSL验证等设置为False即可,但会给出警告。

有时使用抓包工具,会出现因为抓包工具提供的证书并不是由受信任的数字证书颁发机构颁发的,所以证书的验证会 失败,所以我们就需要关闭证书验证。在请求的时候把 verify 参数设置为 False 就可以关闭证书验证了。 但是关闭证书验证后,会出现 warning。可使用以下方法关闭:
requests.packages.urllib3.disable_warnings()

    例1:
        response = requests.get('https://www.quanshuwang.com')
        print(response.text)#会出现 SSLError 错误,如图7-1
        #当我们加上verify 参数时就好了
        response = requests.get('https://www.quanshuwang.com',verify = False)
        print(response.text)        

运行这段代码时会报错:
requests.exceptions.SSLError:HTTPSConnectionPool(host='www.quanshuwang.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLError(1, '[SSL: SSLV3_ALERT_HANDSHAKE_FAILURE] sslv3 alert handshake failure (_ssl.c:841)'),)) 。这时我们只需加一个verify = False 即可。

9.timeout: 设置超时.以秒为单位。
    例1:
    response = requests.get('http://github.com',timeout = 0.001)
    print(response.text)
    #若超时会出现:requests.exceptions.ConnectTimeout
10.json : 提交JSON数据。

注意:参数data与json同时有时,json为空。

    例:
    json = {'华夏':'豪杰'}
    response = requests.get('http://github.com',json = json)
    print(response.text)           
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,723评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,080评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,604评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,440评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,431评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,499评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,893评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,541评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,751评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,547评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,619评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,320评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,890评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,896评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,137评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,796评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,335评论 2 342

推荐阅读更多精彩内容