3-Requests库入门

7个主要方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

Response对象的属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

r.encoding：如果header中不存在charset，则认为编码为ISO‐8859‐1
r.text根据r.encoding显示网页内容
r.apparent_encoding：根据网页内容分析出的编码方式
可以看作是r.encoding的备选

Requests库和Response的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

r.raise_for_status()在方法内部判断r.status_code是否等于200，不需要
增加额外的if语句，该语句便于利用try‐except进行异常处理

通用代码框架

import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status() # 如果状态码不是200，则引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '产生异常'
if __name__ == '__main__':
    url = ''
    ...

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

PATCH和 PUT区别

假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段
需求：用户修改了UserName，其他不变
• 采用PATCH，仅向URL提交UserName的局部更新请求
• 采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除
PATCH的最主要好处：节省网络带宽

HTTP协议中的方法与Reqests库方法一一对应

7个方法详解

requests.request(method, url, **kwargs)

参数	解释
method	请求方式，对应get/put/post等7种
url	拟获取页面的url链接
**kwargs	控制访问的参数，共13个

参数详解

**kwargs	解释
params	字典或字节序列，作为参数增加到url中
data	字典、字节序列或文件对象，作为Request的内容
json	JSON格式的数据，作为Request的内容
headers	字典，HTTP定制头
cookies	字典或CookieJar，Request中的cookie
auth	元组，支持HTTP认证功能
files	字典类型，传输文件
timeout	设定超时时间，秒为单位
proxies	字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects	True/False，默认为True，重定向开关
stream	True/False，默认为True，获取内容立即下载开关
verify	True/False，默认为True，认证SSL证书开关
cert	本地SSL证书路径

kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('GET', 'http://python123.io/ws', params=kv)
print(r.url)  # http://python123.io/ws?key1=value1&key2=value2

kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST', 'http://python123.io/ws', data=kv)
body = '主体内容'
r = requests.request('POST', 'http://python123.io/ws', data=body)

kv = {'key1': 'value1'}
r = requests.request('POST', 'http://python123.io/ws', json=kv)

hd = {'user‐agent': 'Chrome/10'}
r = requests.request('POST', 'http://python123.io/ws', headers=hd)

# 向某个连接提交文件
fs = {'file': open('data.xls', 'rb')}
r = requests.request('POST', 'http://python123.io/ws', files=fs)

pxs = { 'http': 'http://user:pass@10.10.10.1:1234', 'https': 'https://10.10.10.1:4321' }
r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)

requests.get(url, params=None, **kwargs)

参数	解释
url	拟获取页面的url链接
params	url中的额外参数，字典或字节流格式，可选
**kwargs	12个控制访问的参数

import requests

# 发送get请求
r = requests.get('http://www/baidu.com/s', params={'kw': 'python'})
r = requests.get('http://www.baidu.com/s', params=dict(wd='python'))


# 下载图片
url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1531368811695&di=6c119a485d39d482d54fcf31856b6de1&imgtype=0&src=http%3A%2F%2Fimg.shouyoutan.com%2FUploads-s%2Fnews%2F2016-04-11%2F570b63dbc401b.jpg'
r = requests.get(url)
with open('demo.jpg', 'wb') as f:
    f.write(r.content)

    
# 下载大文件
url = 'http://sqdownb.onlinedown.net/down/FastStoneCapture44264.zip'
filename = url.split('/')[-1]
r = requests.get(url, stream=True)
with open(filename, 'wb') as f:
    for chunk in r.iter_content(chunk_size=512):
        if chunk:
            f.write(chunk)

                        
# requests请求响应信息
import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWe'
                 'bKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}

resp = requests.get('http://www.baidu.com/', headers=headers)


### 示例
# 获取响应中的头信息
print(resp.headers)

# 获取请求的头信息
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWe'
                 'bKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}

resp = requests.get('http://www.baidu.com/', headers=headers)
# 获取响应中的头信息
print(resp.headers)

# 获取请求的头信息
print(resp.request.headers)
print(resp.text)  # 字符串格式
print(resp.content) # 二进制格式
print(resp.raw)  # 原始响应内容
print(resp.json) # json格式


# 重定向
r = requests.get('http://www.baidu.com/', allow_redirects=False) # 获得重定向之前的内容
r = requests.get('http://10.31.161.59:8888/admin', allow_redirect=True) # 获得重定向之后的内容


# 发送cookie
url = 'http://10.31.161.59:8888'

cookies = dict(
    test = 'testing'
)
resp = requests.get(url, cookies=cookies)

requests.head(url, **kwargs)

参数	解释
url	拟获取页面的url链接
**kwargs	12个控制访问的参数

requests.post(url, data=None, json=None, **kwargs)

参数	解释
url	拟更新页面的url链接
data	字典、字节序列或文件，Request的内容
json	JSON格式的数据，Request的内容
**kwargs	12个控制访问的参数

# 发送post请求
url = 'http://10.31.161.59:8888/user/register/'
r = requests.post(url, data=dict(username='python', password='123456'))
print(r.content
      
# 文件上传
url = ''
files = {
    'file': open('somefile.txt', 'rb')
}
r = requests.post(url, files=files)
      

# 发送json数据
import json
url = ''
user = {
    'username': 'gavin'
}
requests.post(url, data=json.dumps(user))
requests.post(url, json=user)

# 使用代理
proxies = {
    'http':'http://101.236.35.98:8866',
    'https':'https://180.121.132.184:808'
}

r = requests.get('http://www.baidu.com', proxies=proxies)
print(r.headers)

requests.put(url, data=None, **kwargs) 同Patch

参数	解释
url	拟更新页面的url链接
data	字典、字节序列或文件，Request的内容
**kwargs	12个控制访问的参数

requests.delete(url, **kwargs)

参数	解释
url	拟删除页面的url链接
**kwargs	12个控制访问的参数

requests请求响应信息

import requests
headers = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)'
              ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
}

resp = requests.get("http://10.31.161.59:8888",headers=headers)

# 获得响应中的头信息
print(resp.headers)

# 获得请求的头信息
print(resp.request.headers)

# 获得响应的内容
print(resp.text)  # 字符串格式
print(resp.content) # bytes格式
print(resp.raw)   # 原始响应内容
print(resp.json())  # json格式

requests超时时间

import requests

url = 'http://www.baidu.com'
try:
    r = requests.get(url=url,timeout=1)
except Exception as e:
    print("{url}请求超时.".format(url=url))

print(type(r.request))

页面下载及解决编码问题

              decode                    encode
str(byte类型) ---------> str(Unicode) ---------> str(byte类型)


import requests
import codecs
# pip install requests

def fetch(url):
    """
    获取url对应的页面的内容.

    参数:
        -url- : 网页的地址
    返回值:
        如果页面成功获取,以r.content二进制内容返回，有2个方式保存为文件，直接以wb方式写入，或者先将二进制数据decode成str，然后指定编码格式 encoding='GBK',然后写入文件。
        如果页面以r.text返回，需要和通用代码框架中一样设定 r.encoding = 'gbk'或 r.encoding = r.apparent_encoding，然后直接写入文件即可。
    """
    r= requests.get(url)
    if r.status_code is 200:
        return r.content
    return None



def main():
    result = fetch("https://www.poxiao.com/")
    
    if result is not None:
        with open("poxiao.html","wb") as f:
            f.write(result)
    return None
    # if result is not None:
    #     with codecs.open("poxiao.html","w",encoding='GBK') as f:
    #         f.write(result.decode('GBK'))
    # return None

if __name__ == '__main__':
    main()

保存数据到数据库

官方版本

import pymysql
import pymysql.cursors

from bs4 import BeautifulSoup
with open('poxiao.html','rb') as f:
    # pip install lxml
    poxiao  = BeautifulSoup(f,'lxml')


#  div   content clear
# 找到div 
content_div = poxiao.find(name='div',class_='content clear')

# 从div中找所有li
li_list = content_div.findAll(name='li')

# Connect to the database
connection = pymysql.connect(host='localhost',
                             user= 'spider',
                             password='123456',
                             db='spider',
                             charset='utf8mb4',
                             cursorclass=pymysql.cursors.DictCursor)
# 获得每个li中的文本和超链接
try:
    for li in li_list:
        print(li.a.get("href"))
        print(li.get_text())
        href = li.a.get("href")
        title = li.get_text()
        with connection.cursor() as cursor:
            # Create a new record
            sql = "INSERT INTO `movie` (`title`, `link`) VALUES (%s, %s)"
            cursor.execute(sql, (title, href))

        # connection is not autocommit by default. So you must commit to save
        # your changes.
        connection.commit()

        with connection.cursor() as cursor:
            # Read a single record
            sql = "SELECT `title`, `link` FROM `movie` WHERE `movie_id`=%s"
            cursor.execute(sql, (1,))
            result = cursor.fetchone()
            print(result)
finally:
    connection.close()

简写版本

import pymysql
from bs4 import BeautifulSoup

with open('poxiao.html', 'rb') as f:
    poxiao = BeautifulSoup(f, 'lxml')

content_div = poxiao.find(name='div', class_='content clear')

li_list = content_div.findAll(name='li')


db = pymysql.connect('127.0.0.1', 'root', '123456', 'spider')
db.set_charset('utf8')

cursor = db.cursor()

try:
    for li in li_list:
        href = 'https://www.poxiao.com' + li.a.get('href')
        title = li.get_text()
        # sql = 'insert into movie values(null, "%s", "%s")' % (title, href)
        sql = "INSERT INTO `movie` (`title`, `link`) VALUES (%s, %s)"
        cursor.execute(sql, (title, href))
        db.commit()

except:
    db.rollback()
db.close()

requests会话

import requests

s = requests.Session()

# 地址级别的参数可以跨请求保持
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = s.get("http://httpbin.org/cookies")

print(r.text)

# 函数级别的参数不会被跨请求保持
resp = s.get('http://httpbin.org/cookies', cookies={'name':'xiaoming'})
print(resp.text)

resp = s.get('http://httpbin.org/cookies')
print(resp.text)


# 会话可以用来提供默认数据

session = requests.Session()
session.auth = ('dai','123456')

# 会话也可用来为请求方法提供缺省数据。这是通过为会话对象的属性提供数据来实现的：
s = requests.Session()
s.auth = ('user', 'pass')
s.headers.update({'x-test': 'true'})

# both 'x-test' and 'x-test2' are sent
r= s.get('http://httpbin.org/headers', headers={'x-test2': 'true'})
print(r.request.headers)

# 在 with 前后文管理器中使用session，确保session自动关闭
with requests.Session as session:
    session.get('http://www.baidu.com')

预请求

from requests import Request, Session

session = Session()
url = 'http://www.baidu.com'

# 构建一个请求对象
req = Request('GET', url, headers=None)

# 获得带有状态的预请求对象
prepped = session.prepare_request(req)
print(type(prepped))
# <class 'requests.models.PreparedRequest'>

# 发送请求
with session.send(prepped, timeout=0.5) as response:
    print(response.status_code)

requests下载图片

import requests
url = "http://pic171.nipic.com/file/20180705/5053868_230805401034_2.jpg"
r = requests.get(url)
with open('demo.jpg','wb') as f:
    f.write(r.content)

requests下载大文件

url = 'http://sqdownb.onlinedown.net/down/FastStoneCapture44264.zip'
import requests
filename = url.split('/')[-1]
r = requests.get(url,stream=True)
with open(filename,'wb') as f:
    for chunk in r.iter_content(chunk_size=512):
        if chunk:
            f.write(chunk)

requests发送cookie

import requests

url = 'http://10.31.161.59:8888/'
headers = {
    'User-Agent':'afasdfasfasdf',
}
cookies = dict(
    sessionid = 'swkbut2xrt2c3rhhwubamp80oa2p7tzw',
    csrftoken = 'e6JLs6n2u4gPDrd8l3XVkUhhvCldxUvXhJ0SHJGiV1oUbnTwv12CR9GTvzX6l9EC'
)
resp = requests.get(url,headers=headers,cookies=cookies)
print(resp.text)

requests文件上传

import requests

url = ''
files = {
    'file':open('somefile.txt','rb')
}

r = requests.post(url,files=files)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,761评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,953评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,998评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,248评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,130评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,145评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,550评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,236评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,510评论 1赞 291
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,601评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,376评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,247评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,613评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,911评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,191评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,532评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,739评论 2赞 335