(转)Python模块之requests

一、HTTP协议

HTTP(Hyper Text Transfer Protocol)意为超文本传输协议,它提供了一种发布和接收HTML网页的方法,我们一般称客户端为用户代理程序(user agent),应答的服务器上存储着一些资源,比如HTML文件和图像,我们称这个应答服务器为源服务器。而HTTP就是一个客户端终端(用户)和服务器端(网站)请求和应答(其实简单看来就是浏览网页的过程)的标准。

二、请求方法

在HTTP协议中,定义了八种方法来操作指定的资源(下面只会用到GET,POST):

OPTIONS,HEAD,GET,POST,PUT,DELETE,TRACE,CONNECT。

简单说明一下各个方法的功能:

OPTIONS:使服务器传回该资源所支持的所有HTTP请求方法,可以测试服务器功能是否正常运作。

HEAD:向服务器发出指定资源的请求,只不过服务器将不传回资源的本文部分。

GET:向指定的资源发出“显示”请求。

POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。

PUT:向指定的资源上传最新内容。

DELETE:请求服务器删除所标识的资源。

TRACE:显示服务器收到的请求,用于测试。

CONNECT:通常用于SSL加密服务器的链接。

(以上参考维基百科)

通常我们浏览网页时,其实就是一个GET方法,从服务器端加载网页进来。

所以GET是其中最常用的一种方法。而在我们平常使用(比如爬虫)时,几乎都要用到这个方法。

三、安装requests

>>>pip install requests

一、发送请求

首先导入requests库

>>>import requests

导入后,你就可以直接发出请求了:

>>>r=requests.get('https://www.zhihu.com/')

这样一来,你就得到了一个Response对象r,这个对象里已经包含了你想要的网页信息。

遇到某些需要登录验证信息的网站,只用GET方法是得不到在浏览器上看到的网页的,这时你得附带headers和cookies:

>>>r=requests.get('https://www.zhihu.com/',headers={'key':'value'},cookies={'key':'value'})

其中headers和cookies参数是以字典的方式存储的,它们的信息可以在浏览器里开发者工具中看到。一般headers用以伪装成浏览器,而cookies是你存储的表单密码cookie。这两者在请求网页内容中最常用,如果请求失败时,可以检查一下看看自己有没有将headers和cookies考虑进来。

二、传递参数进URLs

在使用该方法前你需要了解网址的参数,网址中一般在后面加上?号,而问号后面带的是一串参数,比如:

>>>paylod={'key1':'value1','key2':['value2','value3']}>>>r=requests.get('https://www.zhihu.com/get',params=payload)>>>print(r)https://www.zhihu.com/get?key1=value1&key2=value2&key2=value3

这种带参数的网址,在一些有表格数据的网站非常常见。

三、响应内容

用上面获取的Response对象的.text方法,可以得到网页的内容:

>>>r.textu'....................'

requests会自动为你编码,你可以用.encoding方法查看编码,或是更改编码格式:

>>>r.encoding'utf-8'>>>r.encoding='ISO-8859-1'

除了.text方法外,还有其它响应内容的方法:

1.如果想获得二进制,可以用.content的方法:

>>>r.contentb'..................'

2.用.json()方法可以返回json内容:

>>>r.json()b'{'xxx':'xxx'}'

3.在某些情况下你可能需要得到原始套接字回应,此时你可以在原始的request请求中将stream参数设为True,然后再用.raw方法:

>>>r=requests.get('http://www.zhihu.com/get',stream=True)>>>r.raw

四、返回状态码

在发送请求后,我们可以通过以下方法检查状态码:

>>>r.status_code200

requests还提供了一个简单的参考方式:

r.status_code==requests.codes.okTrue

如果我们发送了一个错误的请求,可以用.raise_for_status()来引出一个错误:

>>>r.status_code404>>>r.raise_for_status()Traceback(mostrecentcalllast):File"requests/models.py",line832,inraise_for_statusraisehttp_errorrequests.exceptions.HTTPError:404ClientError

五、返回请求头

我们可以点取属性取得请求时的请求头(Headers):

>>>r.headers{'content-encoding':'gzip','transfer-encoding':'chunked','connection':'close','server':'nginx/1.0.4','x-runtime':'148ms','etag':'"e1ca502697e5c9317743dc078f67693f"','content-type':'application/json'}

所以我们可以直接访问我们想要的内容:

>>>r.headers['content-encoding']'gzip'

同理,你也可以通过这种方式访问Cookies:

>>>r.cookies['example_cookie_name']'example_cookie_value'

六、重定向和历史纪录

在了解该功能前,你需要了解重定向的内容,重定向指的是把你的网络请求重新定个方向,让它转移到其它位置。为什么要重定向呢?因为当你的网络结构发生变化、更换网址和改变扩展名(比如.php改成.html)时,如果不进行重定向,用户便会访问到一个错误的网址,从而发生错误,使网站损失用户。所以,在一些网站进行重大改版时,在进入网页时你常常会发现出现跳转的情况,其实就是重定向。

在requests中,可以用history方法来追踪重定向。同时可以在请求时选择开启或关闭重定向(除了HEAD请求外,默认都是开启。)

>>>r=requests.get('http://github.com',allow_redirects=True)>>>r.history[]

七、超时设定

你可以传入一个时限来限定requests最大访问时间,当无响应时长超过这个时限时,就会发生错误:

>>r=requests.get('http://www.zhihu.com/',timeout=0.1)Traceback(mostrecentcalllast):File"",line1,inrequests.exceptions.Timeout:HTTPConnectionPool(host='github.com',port=80):Requesttimedout.(timeout=0.1)

写在最后

本文翻译于官方文档(虽然写完才发现有中文版。。),其中内容经过自己的一些理解所写,对原有文档进行了适当删减,同时一些地方的知识做了点补充。


转自知乎作者:林骏翔

链接:https://zhuanlan.zhihu.com/p/21976757

来源:知乎

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容