前言:
先简单说一说本人写这篇文章的初衷,自我觉得之前学东西的深度以及效率一直不高,偶然之间看到一种边学边写的方法,于是想着借鉴一下,因此我才想开一个这样的专栏,一方面是记录我的学习过程;另一方面,也是分享出来供大家一起学习交流。(P.S.这是我第一次写文章哈哈,萌新求照)。
这第一篇,我不想直接写requests库,bs4库之类的方法,这些方法是死的,既然是开始就要把基础打牢是吧。所以接下来我将尽可能精要地介绍一些HTTP基本原理,爬虫基本原理,以及Cookies的基本原理,并且在最后带大家做一次最简单的爬取。
1)HTTP基本原理:
HTTP的全称是Hyper Text Transfer Protocol(超文本传输协议),用于从网络传输超文本数据到本地浏览器的传送协议。 爬虫中经常抓取的页面通常就是http或https协议的。HTTPS是HTTP下加入SSL层,简单来说就是HTTP的安全版。
HTTP的请求过程就是一个request-response的过程:用户/浏览器 向网站所在服务器发送请求,服务器收到后进行处理和解析,并以文件形式传回给用户/浏览器。
最主要的请求方式由GET与POST两种方式:GET:请求中的参数会出现在url中,提交的数据最多1024字节 ; POST:请求参数会包装在请求体中,故通常在表单提交时使用,提交的数据大小没有限制。
响应则包括三个部分:响应状态码(Response Status Code)、响应头(Response Headers)和响应体(Response Body)。 需要稍微了解一下常见的状态码:200(成功),404(服务器中找不到资源),400(错误请求)以及500(服务器内部错误)等。
2)爬虫基本原理:
简而言之,爬虫就是获取网页并提取和保存信息的自动化程序。
Step1 ---获取网页:就是要获取网页的源代码(html代码),Python中提供了许多库来帮助我们实现HTTP请求来获取网页,比如urllib,requests库等。
Step2 ---提取信息:拿到一整个网页,但总不会整个内容都是自己需要的吧,这里就需要提取出自己关心的内容。有一个万能的方法就是利用正则表达式进行匹配,但是它较难构造且效率不高,所以我们往往使用其他的方法来进行(如Beautiful Soup, XPath, pyquery等),这一部分也是最花时间的一步。
Step3 ---保存数据:通常我们可以仅用两行代码,将信息保存到文件中。大量的数据也可以保存到数据库中,如MySQL和MongoDB等。
Step4 ---自动化程序:自动化也就是利用爬虫代替人的工作。自动化的过程通常会使用多线程来加速爬取的过程。
3)Cookies的基本原理:
首先不妨来想一想这样一件事,你登陆了简书的账号,关闭浏览器,再打开的时候就不需要登陆了。这是如何做到的呢?在解释之前,还要了解HTTP的一个特点:无状态。这就意味着HTTP协议对事务处理是没有记忆的。
由于HTTP本身不能提供这种保存登陆的实现,所以会话(session)和Cookies技术就应运而生了。Coolies保存了登陆的凭证,有了它,下次就不需要重新输入账号密码来登陆了。Cookie分为两种级别,一种是会话级,另一种是持久级。会话可以理解是一次打开浏览器,关闭浏览器那么一次会话就“结束”了。
会话级Cookie将Cookie保存在浏览器内存中,浏览器关闭后Cookie就失效了(注意区别:session是存在与服务器中的,并不会消失,只是因为会话级的Cookie失效了,无法找到对应SessionID的session,所以会话也就无法进行下去了);持久级Cookie将Cookie保存在硬盘中,保存的时间可以通过程序自己定义,过期才会失效,实现了一种持久化的解决方案。
小试牛刀:
这一基础篇主要给新手们理解一下基本的概念,可能也略显乏味,最后呢,做一个最简单的爬取(也可以跳过,直接看下篇文章)。
我们来实现一个IP地址自动查询。IP138网站(http://www.ip138.com)为我们提供了一个天然的接口,就拿它下刀吧。我们先在网站上输入一个ip,看看有什么发生(以Google免费DNS为例:8.8.8.8),发现网址变成了这样
猜想,是不是ip后面接一个符合条件的IP就能直接查询呢? 于是我们就利用这样的一个关键字接口来写程序了。(发现复制代码不方便,直接贴图了)
因为还没有将后面的知识,所以这里只是返回整个html页面,在通过切片截取出有用的部分。这样就能得到想要的结果了。
结语:
谢谢大家阅读,希望能对你有所帮助,我也会加紧学习的步伐继续下去。现在仅仅是开始,精彩永远在路的尽头。共勉吧。