Python网络请求之Requests库

简介

Requests是Python的一个第三方库,它是基于urllib3来编写的一个库,采用Apache2 Licensed开源协议的HTTP库。

它比Python原生的urllib使用起来更方便简洁。

Requests库的安装

在终端命令行输入以下命令来安装Requests库

pip install requests

Requests的使用

使用Requests发送网络请求非常简单。首先要做的是导入Requests模块

import Requests

然后,尝试获取某个网页

response = requests.get("http://www.baidu.com")

现在,我们有一个名为response的Response对象。我们可以从这个对象中获取所有我们想要的的信息。

url是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源

HTTP协议对资源的操作

方法 说明
GET 请求获取URL位置的资源
HEAD 请求获取URL位置资源的响应消息报告,即获得资源的头部信息
POST 请求像URL位置的资源后附加新的消息
PUT 请求像URL位置存储一个资源,覆盖原URL位置的资源
PATCH 请求局部更新URL位置的资源,即改变该处资源的部分内容
DELETE 请求删除URL位置存储的资源

以上方法中,GET, HEAD是从服务器获取信息到本地,PUT, POST, PATCH, DELETE是从本地像服务器提交信息。通过URL和命令管理资源,操作独立无状态,网络通道及服务器成了黑盒子。

同样的Requests库也都支持这7种方法,我们就来看看都是怎么用的吧

import requests

response = requests.get("http://www.baidu.com")
response = requests.post('http://httpbin.org/post', data = {'key':'value'})
response = requests.put('http://httpbin.org/put', data = {'key':'value'})
response = requests.delete('http://httpbin.org/delete')
response = requests.head('http://httpbin.org/get')
response = requests.head('http://httpbin.org/get')
response = requests.options('http://httpbin.org/get')

都很不错吧,但这也仅是Requests的冰山一角呢。

Requests.GET

使用Requests发送GET请求是非常方便的,也是用非常显而易见的方式来发送请求的。

response = requests.get("http://www.baidu.com")

在我们平时请求网站的时候,经常是要为URL提供查询字符串(Query string)传递一些数据的。如果你是手工构建URL,那么数据会key/value的形式置于URL中,跟在一个问号的后面。例如,http://httpbin.org/get?key=val。Requests允许你使用params关键字参数,以一个字符长字典来提供这些参数。举例来说,如果你想传递ie=UTF-8wd=pythonhttps://www.baidu.com,那么可以这么做

param_dict = {
    'ie': 'UTF-8',
    'wd': 'python'
}
response = requests.get("https://www.baidu.com/s", params=param_dict)
print(response.url)

通过打印输出URL,你能看到URL已经被正确编码

https://www.baidu.com/s?ie=UTF-8&wd=python

注意字典里值为None的键都不会被添加到URL的查询字符串里。

Requests.POST

在网络请求中,除了GET方法从服务器指定位置获取内容很常用外,还有一个POST方法,向服务器指定位置提交内容的方法也很常用。使用Requests库对服务器发送POST请求也是非常简显的。

我们通常是要发送一些有HTML表单收集的信息,通过POST请求传递到服务器的指定位置的,要实现这个,只需要简单地传递一个字典给data参数。你的数据字典在发出请求时会自动编码为表单形式进行发送

data_dict={
    'key1': 'value1',
    'key2': 'value2'
}
response = requests.post("http://httpbin.org/post", data=data_dict)
print(response.text)

打印输出结果:

...
"form": {
    "key2": "value2",
    "key1": "value1"
},
...

Requests除了可以为data参数传递一个dict,你还可以直接传递一个json参数

url = 'https://api.github.com/some/endpoint'
json_data = {'some': 'data'}
response = requests.post(url, json=json_data)

定制请求头

我们在编写爬虫程序的时候,经常需要定制HTTP头部,因为如果不定制请求头的User-Agentrefer等信息,把程序伪装成普通用户的话,可能很容易就被目的网站程序识别出来是一个爬虫程序给封杀了。Requests提供了我们一种定制HTTP请求头的方式

url = "https://www.amzon.com"
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:68.0) Gecko/20100101 Firefox/68.0'
}
response = requests.get(url, headers=headers)

Cookie

如果某个响应中包含一些cookie,可以快速访问它们:

url = "http://www.renren.com/PLogin.do"
data = {"email":"970138074@qq.com",'password':"pythonspider"}
resp = requests.get('http://www.baidu.com/')
print(resp.cookies)
print(resp.cookies.get_dict())

要想发送你的cookies到服务器,可以使用cookies参数

url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
response = requests.get(url, cookies=cookies)
print(response.text)

打印结果:

'{"cookies": {"cookies_are": "working"}}'

使用代理

使用requests添加代理也非常简单,只要在请求的方法中(比如get或者post)传递proxies参数就可以了。示例代码如下

url = "http://httpbin.org/get"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
}
proxy = {
    'http': '171.14.209.180:27829'
}
response = requests.get(url,headers=headers,proxies=proxy)

超时

可以告诉requests在经过以timeout参数设定的秒数时间之后停止等待响应,基本上所有生产代码都应该使用这个参数。如果不使用,你的程序可能会永远失去响应

response = requests.get('http://github.com', timeout=10)

Response对象

不管是给服务器指定位置发送GET请求,还是发送POST请求,都会等到一个服务器的响应,那就是Response对象。

response = requests.get("https://api.github.com/events")
print(response.text)

打印输出

u'[{"repository":{"open_issues":0,"url":"https://github.com/...

Requests会自动解码来自服务器的内容,大多数unicode字符集都能被无缝地解码。

请求发出后,Requests会基于HTTP头部对响应的编码做出有根据的推测。当你访问response.text的时候,Requests会使用推测的文本编码,你可以找出Requests使用了什么编码。并且能使用response.encoding属性来改变它。

如果你改变了编码,每当你访问 r.text,Request都将会使用r.encoding 的新值。你可能希望在使用特殊逻辑计算出文本的编码的情况下来修改编码。比如 HTTP 和 XML 自身可以指定编码。这样的话,你应该使用 r.content 来找到编码,然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了。

在Requests中,也有一个内置的JSON解码器,助你处理JSON数据

response = requests.get('https://api.github.com/events')
print(response.json())

打印输出:

[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...

如果 JSON 解码失败, r.json() 就会抛出一个异常。例如,响应内容是 401 (Unauthorized),尝试访问 r.json() 将会抛出 ValueError: No JSON object could be decoded 异常。

需要注意的是,成功调用 r.json() 并不意味着响应的成功。有的服务器会在失败的响应中包含一个 JSON 对象(比如 HTTP 500 的错误细节)。这种 JSON 会被解码返回。要检查请求是否成功,请使用 r.raise_for_status() 或者检查 r.status_code 是否和你的期望相同。

Requests的Response对象还通过status_code属性返回了响应状态码,为了方便检查我们的请求是否获得了正确的响应的我们可以通过这个属性来做判断。

response = requests.get("https://www.baidu.com")
if response.status_code == requests.codes.ok:
    print('响应成功,状态%d' % response.status_code)
else:
    print('响应失败')

Session会话对象

会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie, 期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求,底层的 TCP 连接将会被重用,从而带来显著的性能提升。

import requests

url = "http://www.renren.com/PLogin.do"
data = {"email":"970138074@qq.com",'password':"pythonspider"}
headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"
}

# 登录
session = requests.session()
session.post(url,data=data,headers=headers)

# 访问大鹏个人中心
resp = session.get('http://www.renren.com/880151247/profile')

print(resp.text)

身份认证

许多Web服务都需要身份认证,并且有多种不同的认证类型。

许多要求身份认证的Web服务器接受HTTP Basic Auth。这是最简单的一种身份认证,并且Requests对这种认证方式的支持是直接开箱即可用

from requests.auth import HTTPBasicAuth
response = requests.get('https://api.github.com/user', auth=HTTPBasicAuth('username', 'password'))
print(response.status_code)

打印输出

<Response [200]>

HTTP Basic Auth是一种非常常见的身份验证方式,Requests提供了一种简写方式

response = requests.get('https://api.github.com/user', auth=('username', 'password'))

看完了HTTP Basi Auth身份认证,再看一个常用的身份认证方式,HTTP Digest Auth

from requests.auth import HTTPDigestAuth
url = 'http://httpbin.org/digest-auth/auth/user/pass'
requests.get(url, auth=HTTPDigestAuth('user', 'pass'))
print(response.status_code)

打印输出

<Response [200]>

最后再来看看OAuth1认证。Oauth 是一种常见的 Web API 认证方式。 requests-oauthlib 库可以让 Requests 用户简单地创建 OAuth 认证的请求。

import requests
from requests_oauthlib import OAuth1

url = 'https://api.twitter.com/1.1/account/verify_credentials.json'
auth = OAuth1('YOUR_APP_KEY', 'YOUR_APP_SECRET',
              'USER_OAUTH_TOKEN', 'USER_OAUTH_TOKEN_SECRET')
response = requests.get(url, auth=auth)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,529评论 5 475
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,015评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,409评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,385评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,387评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,466评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,880评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,528评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,727评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,528评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,602评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,302评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,873评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,890评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,132评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,777评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,310评论 2 342

推荐阅读更多精彩内容