python中urllib和urllib2库的使用

请求与响应

request,response:


http协议解析网页过程

爬虫爬取信息的过程实质上是一个请求与相应的模型,即:

                        建立连接,发出请求信息,回送响应信息,关闭连接

python中的urllib,urllib2库中可以实现http功能,urllib2为主

那么接下来,我们可以尝试一下用python实现一下http协议过程:


import urllib2

request = urllib2.Request('http://www.zhihu.com')

response = urllib2.urlopen(request)

html = response.read()

print html


这是一段获取知乎网站html信息的代码,


咦,是不是发现哪里不对劲,出现了乱码……

没有关系,需要做的就是要decode一下:

         html = response.read().decode('utf-8')


看,一个简单的http过程就好了。

当然,在这一个过程中,主要是用到了Get请求,即从服务器端获取数据,但是我们知道,除了Get请求,还有一种请求是Post请求,就好比client和Server端在恋爱,有所获得也要有所付出,这样关系才更为牢靠,当然这不是绝对的,在这里只是打了一个比方,帮助更好理解。

来看一下下面的例子:


import urllib2

import urllib

url = 'http://www.zhihu.com/login'

postdata = {'username':'frank'

'password':'123456'

}

data = urllib.urlencode(postdata)#编码用到了urllib库,为了使urllib2能看懂

request = urllib2.Request(url,data)#在request过程中实现了post过程,把用户名和密码传过去

response.urllib2.urlopen(request)

html = response.read()

print html


可是,站在Server端考虑,我希望我的用户是用户的正常访问,即通过浏览器正常访问,而不是程序强行刚入,所以大部分网站服务器都会检查请求头,所以嘛,我们需要伪装一下,就像使看特工影视剧,我们要潜伏之前,都要有一个身份,这样才能够方便我们通过检验。于是乎,就有了

                                          headers处理

其实做法也很简单:

           user_agent = 'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'

然后在

                 request = urllib2.Request(url, data,user_agent)

这里是举一个例子,很多地方是这样写,

                 headers = {‘user_agent’:user_agent,'Referer':referer}

                 user_agent和Referer的定义写在前面

还有另外一种,就是用add_header方法

                 request = urllib2.Request(url)

                 request.add_header('User-Agent',user_agent)

                                         cookie处理


我对cookie的理解并不深刻,所以从网上找到了一种解释:


由此我们可以看出cookie的作用,鉴于此:


import urllib2

import cookielib

cookie = cookielib.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

response = opener.open('http://www.zhihu.com')

for item in cookie:

print item.name+':'+item.value


之后还需要设置time超时,就像我们等人不能一直等,需要有一个时间限制一样

只需要在urlopen(request,timeout=3)

在一些情况下,我们可能还需要用到HTTP响应码来判断,以及当返回的是HTTP3XX时候,要进行重定向操作


最后一部分要强调的是代理服务:

为啥要用代理,Server也不傻,一个地方频繁的多次不合理的访问,人家肯定就会注意到了,所以我们要伪装一下。


import urllib2

proxy = urllib2.ProxyHandler({'http':'127.0.0.1:8087'})

opener = urllib2.build_opener([proxy,])

urllib2.install_opener(opener)

response =opener.open('http://www.zhihu.com/')

print response.read()


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容