(一)爬虫基础


Python爬虫笔记(一)

前言:

        先简单说一说本人写这篇文章的初衷,自我觉得之前学东西的深度以及效率一直不高,偶然之间看到一种边学边写的方法,于是想着借鉴一下,因此我才想开一个这样的专栏,一方面是记录我的学习过程;另一方面,也是分享出来供大家一起学习交流。(P.S.这是我第一次写文章哈哈,萌新求照)。

        这第一篇,我不想直接写requests库,bs4库之类的方法,这些方法是死的,既然是开始就要把基础打牢是吧。所以接下来我将尽可能精要地介绍一些HTTP基本原理,爬虫基本原理,以及Cookies的基本原理,并且在最后带大家做一次最简单的爬取。


1)HTTP基本原理:

        HTTP的全称是Hyper Text Transfer Protocol(超文本传输协议),用于从网络传输超文本数据到本地浏览器的传送协议。 爬虫中经常抓取的页面通常就是http或https协议的。HTTPS是HTTP下加入SSL层,简单来说就是HTTP的安全版。

        HTTP的请求过程就是一个request-response的过程:用户/浏览器 向网站所在服务器发送请求,服务器收到后进行处理和解析,并以文件形式传回给用户/浏览器。

        最主要的请求方式由GET与POST两种方式:GET:请求中的参数会出现在url中,提交的数据最多1024字节 ; POST:请求参数会包装在请求体中,故通常在表单提交时使用,提交的数据大小没有限制。

        响应则包括三个部分:响应状态码(Response Status Code)、响应头(Response Headers)和响应体(Response Body)。  需要稍微了解一下常见的状态码:200(成功),404(服务器中找不到资源),400(错误请求)以及500(服务器内部错误)等。


2)爬虫基本原理:

        简而言之,爬虫就是获取网页并提取和保存信息的自动化程序

            Step1 ---获取网页:就是要获取网页的源代码(html代码),Python中提供了许多库来帮助我们实现HTTP请求来获取网页,比如urllib,requests库等。

            Step2 ---提取信息:拿到一整个网页,但总不会整个内容都是自己需要的吧,这里就需要提取出自己关心的内容。有一个万能的方法就是利用正则表达式进行匹配,但是它较难构造且效率不高,所以我们往往使用其他的方法来进行(如Beautiful Soup, XPath, pyquery等),这一部分也是最花时间的一步。

            Step3 ---保存数据:通常我们可以仅用两行代码,将信息保存到文件中。大量的数据也可以保存到数据库中,如MySQL和MongoDB等。

            Step4 ---自动化程序:自动化也就是利用爬虫代替人的工作。自动化的过程通常会使用多线程来加速爬取的过程。


3)Cookies的基本原理:

        首先不妨来想一想这样一件事,你登陆了简书的账号,关闭浏览器,再打开的时候就不需要登陆了。这是如何做到的呢?在解释之前,还要了解HTTP的一个特点:无状态。这就意味着HTTP协议对事务处理是没有记忆的。

        由于HTTP本身不能提供这种保存登陆的实现,所以会话(session)和Cookies技术就应运而生了。Coolies保存了登陆的凭证,有了它,下次就不需要重新输入账号密码来登陆了。Cookie分为两种级别,一种是会话级,另一种是持久级。会话可以理解是一次打开浏览器,关闭浏览器那么一次会话就“结束”了。

        会话级Cookie将Cookie保存在浏览器内存中,浏览器关闭后Cookie就失效了(注意区别:session是存在与服务器中的,并不会消失,只是因为会话级的Cookie失效了,无法找到对应SessionID的session,所以会话也就无法进行下去了);持久级Cookie将Cookie保存在硬盘中,保存的时间可以通过程序自己定义,过期才会失效,实现了一种持久化的解决方案。


小试牛刀:

        这一基础篇主要给新手们理解一下基本的概念,可能也略显乏味,最后呢,做一个最简单的爬取(也可以跳过,直接看下篇文章)。

        我们来实现一个IP地址自动查询。IP138网站(http://www.ip138.com)为我们提供了一个天然的接口,就拿它下刀吧。我们先在网站上输入一个ip,看看有什么发生(以Google免费DNS为例:8.8.8.8),发现网址变成了这样

输入测试IP后的网址

        猜想,是不是ip后面接一个符合条件的IP就能直接查询呢? 于是我们就利用这样的一个关键字接口来写程序了。(发现复制代码不方便,直接贴图了)


全部代码

        因为还没有将后面的知识,所以这里只是返回整个html页面,在通过切片截取出有用的部分。这样就能得到想要的结果了。


结语:

        谢谢大家阅读,希望能对你有所帮助,我也会加紧学习的步伐继续下去。现在仅仅是开始,精彩永远在路的尽头。共勉吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容

  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,059评论 2 26
  • 代理shell 找到python的:安装目录下的default_settings.py文件,比如我的F:\Soft...
    费云帆阅读 191评论 0 0
  • http协议有http0.9,http1.0,http1.1和http2三个版本,但是现在浏览器使用的是htt...
    一现_阅读 1,855评论 0 3
  • 放假啦!终于放假了!真高兴! 终于大家聚餐吃了火锅,祝新年快乐!红红火火! 发了年终奖,买衣服去...
    蛰伏的蚕蛹阅读 129评论 0 1
  • 作者介绍:于狐 男 山西洪洞人 毕业后在省报做记者,采访过省政府,戒毒所,电视台,刑警队,还有工商所等各行各业,...
    于狐阅读 392评论 0 0