简介
Requests是Python的一个第三方库,它是基于urllib3来编写的一个库,采用Apache2 Licensed开源协议的HTTP库。
它比Python原生的urllib使用起来更方便简洁。
Requests库的安装
在终端命令行输入以下命令来安装Requests库
pip install requests
Requests的使用
使用Requests发送网络请求非常简单。首先要做的是导入Requests模块
import Requests
然后,尝试获取某个网页
response = requests.get("http://www.baidu.com")
现在,我们有一个名为response的Response对象。我们可以从这个对象中获取所有我们想要的的信息。
url是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源
HTTP协议对资源的操作
方法 | 说明 |
---|---|
GET | 请求获取URL位置的资源 |
HEAD | 请求获取URL位置资源的响应消息报告,即获得资源的头部信息 |
POST | 请求像URL位置的资源后附加新的消息 |
PUT | 请求像URL位置存储一个资源,覆盖原URL位置的资源 |
PATCH | 请求局部更新URL位置的资源,即改变该处资源的部分内容 |
DELETE | 请求删除URL位置存储的资源 |
以上方法中,GET
, HEAD
是从服务器获取信息到本地,PUT
, POST
, PATCH
, DELETE
是从本地像服务器提交信息。通过URL和命令管理资源,操作独立无状态,网络通道及服务器成了黑盒子。
同样的Requests库也都支持这7种方法,我们就来看看都是怎么用的吧
import requests
response = requests.get("http://www.baidu.com")
response = requests.post('http://httpbin.org/post', data = {'key':'value'})
response = requests.put('http://httpbin.org/put', data = {'key':'value'})
response = requests.delete('http://httpbin.org/delete')
response = requests.head('http://httpbin.org/get')
response = requests.head('http://httpbin.org/get')
response = requests.options('http://httpbin.org/get')
都很不错吧,但这也仅是Requests的冰山一角呢。
Requests.GET
使用Requests发送GET请求是非常方便的,也是用非常显而易见的方式来发送请求的。
response = requests.get("http://www.baidu.com")
在我们平时请求网站的时候,经常是要为URL提供查询字符串(Query string)传递一些数据的。如果你是手工构建URL,那么数据会key/value的形式置于URL中,跟在一个问号的后面。例如,http://httpbin.org/get?key=val
。Requests允许你使用params
关键字参数,以一个字符长字典来提供这些参数。举例来说,如果你想传递ie=UTF-8
和wd=python
到https://www.baidu.com
,那么可以这么做
param_dict = {
'ie': 'UTF-8',
'wd': 'python'
}
response = requests.get("https://www.baidu.com/s", params=param_dict)
print(response.url)
通过打印输出URL,你能看到URL已经被正确编码
https://www.baidu.com/s?ie=UTF-8&wd=python
注意字典里值为None的键都不会被添加到URL的查询字符串里。
Requests.POST
在网络请求中,除了GET方法从服务器指定位置获取内容很常用外,还有一个POST方法,向服务器指定位置提交内容的方法也很常用。使用Requests库对服务器发送POST请求也是非常简显的。
我们通常是要发送一些有HTML表单收集的信息,通过POST请求传递到服务器的指定位置的,要实现这个,只需要简单地传递一个字典给data
参数。你的数据字典在发出请求时会自动编码为表单形式进行发送
data_dict={
'key1': 'value1',
'key2': 'value2'
}
response = requests.post("http://httpbin.org/post", data=data_dict)
print(response.text)
打印输出结果:
...
"form": {
"key2": "value2",
"key1": "value1"
},
...
Requests除了可以为data
参数传递一个dict
,你还可以直接传递一个json
参数
url = 'https://api.github.com/some/endpoint'
json_data = {'some': 'data'}
response = requests.post(url, json=json_data)
定制请求头
我们在编写爬虫程序的时候,经常需要定制HTTP头部,因为如果不定制请求头的User-Agent
,refer
等信息,把程序伪装成普通用户的话,可能很容易就被目的网站程序识别出来是一个爬虫程序给封杀了。Requests提供了我们一种定制HTTP请求头的方式
url = "https://www.amzon.com"
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:68.0) Gecko/20100101 Firefox/68.0'
}
response = requests.get(url, headers=headers)
Cookie
如果某个响应中包含一些cookie,可以快速访问它们:
url = "http://www.renren.com/PLogin.do"
data = {"email":"970138074@qq.com",'password':"pythonspider"}
resp = requests.get('http://www.baidu.com/')
print(resp.cookies)
print(resp.cookies.get_dict())
要想发送你的cookies到服务器,可以使用cookies参数
url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
response = requests.get(url, cookies=cookies)
print(response.text)
打印结果:
'{"cookies": {"cookies_are": "working"}}'
使用代理
使用requests
添加代理也非常简单,只要在请求的方法中(比如get
或者post
)传递proxies
参数就可以了。示例代码如下
url = "http://httpbin.org/get"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
}
proxy = {
'http': '171.14.209.180:27829'
}
response = requests.get(url,headers=headers,proxies=proxy)
超时
可以告诉requests在经过以timeout
参数设定的秒数时间之后停止等待响应,基本上所有生产代码都应该使用这个参数。如果不使用,你的程序可能会永远失去响应
response = requests.get('http://github.com', timeout=10)
Response对象
不管是给服务器指定位置发送GET请求,还是发送POST请求,都会等到一个服务器的响应,那就是Response对象。
response = requests.get("https://api.github.com/events")
print(response.text)
打印输出
u'[{"repository":{"open_issues":0,"url":"https://github.com/...
Requests会自动解码来自服务器的内容,大多数unicode字符集都能被无缝地解码。
请求发出后,Requests会基于HTTP头部对响应的编码做出有根据的推测。当你访问response.text
的时候,Requests会使用推测的文本编码,你可以找出Requests使用了什么编码。并且能使用response.encoding
属性来改变它。
如果你改变了编码,每当你访问 r.text
,Request都将会使用r.encoding
的新值。你可能希望在使用特殊逻辑计算出文本的编码的情况下来修改编码。比如 HTTP 和 XML 自身可以指定编码。这样的话,你应该使用 r.content
来找到编码,然后设置 r.encoding
为相应的编码。这样就能使用正确的编码解析 r.text
了。
在Requests中,也有一个内置的JSON解码器,助你处理JSON数据
response = requests.get('https://api.github.com/events')
print(response.json())
打印输出:
[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...
如果 JSON 解码失败, r.json()
就会抛出一个异常。例如,响应内容是 401 (Unauthorized),尝试访问 r.json()
将会抛出 ValueError: No JSON object could be decoded
异常。
需要注意的是,成功调用 r.json()
并不意味着响应的成功。有的服务器会在失败的响应中包含一个 JSON 对象(比如 HTTP 500 的错误细节)。这种 JSON 会被解码返回。要检查请求是否成功,请使用 r.raise_for_status()
或者检查 r.status_code
是否和你的期望相同。
Requests的Response对象还通过status_code
属性返回了响应状态码,为了方便检查我们的请求是否获得了正确的响应的我们可以通过这个属性来做判断。
response = requests.get("https://www.baidu.com")
if response.status_code == requests.codes.ok:
print('响应成功,状态%d' % response.status_code)
else:
print('响应失败')
Session会话对象
会话对象让你能够跨请求保持某些参数。它也会在同一个 Session
实例发出的所有请求之间保持 cookie
, 期间使用 urllib3 的 connection pooling
功能。所以如果你向同一主机发送多个请求,底层的 TCP 连接将会被重用,从而带来显著的性能提升。
import requests
url = "http://www.renren.com/PLogin.do"
data = {"email":"970138074@qq.com",'password':"pythonspider"}
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"
}
# 登录
session = requests.session()
session.post(url,data=data,headers=headers)
# 访问大鹏个人中心
resp = session.get('http://www.renren.com/880151247/profile')
print(resp.text)
身份认证
许多Web服务都需要身份认证,并且有多种不同的认证类型。
许多要求身份认证的Web服务器接受HTTP Basic Auth。这是最简单的一种身份认证,并且Requests对这种认证方式的支持是直接开箱即可用
from requests.auth import HTTPBasicAuth
response = requests.get('https://api.github.com/user', auth=HTTPBasicAuth('username', 'password'))
print(response.status_code)
打印输出
<Response [200]>
HTTP Basic Auth是一种非常常见的身份验证方式,Requests提供了一种简写方式
response = requests.get('https://api.github.com/user', auth=('username', 'password'))
看完了HTTP Basi Auth身份认证,再看一个常用的身份认证方式,HTTP Digest Auth
from requests.auth import HTTPDigestAuth
url = 'http://httpbin.org/digest-auth/auth/user/pass'
requests.get(url, auth=HTTPDigestAuth('user', 'pass'))
print(response.status_code)
打印输出
<Response [200]>
最后再来看看OAuth1认证。Oauth 是一种常见的 Web API 认证方式。 requests-oauthlib
库可以让 Requests 用户简单地创建 OAuth 认证的请求。
import requests
from requests_oauthlib import OAuth1
url = 'https://api.twitter.com/1.1/account/verify_credentials.json'
auth = OAuth1('YOUR_APP_KEY', 'YOUR_APP_SECRET',
'USER_OAUTH_TOKEN', 'USER_OAUTH_TOKEN_SECRET')
response = requests.get(url, auth=auth)