《Python爬虫零基础入门》课程笔记

一、Python编程环境配置

之前在简书写过一篇安装anacoda的分享：https://www.jianshu.com/p/a512f3c5bca0；

二、Python基本语法

1.字符串（string）

输入：可用英文的单引号或双引号，带换行符的多行字符串也可用三重引号；如v=’Hello World’；

访问值：可用方括号截取字符串，如print（var[0]）截取的就是字符串的第一个字符；

修改：已存在的字符串本身不能修改，但是可以通过赋值改变；如a=’1’ b=a.replace(‘1’,’2’) 即把1换成2；

将对象转为字符串：str函数实现，如a=1 s=str(a);

当做序列类型处理：如s=’python’ list(s) 结果[‘p’,’y’,’t’,’h’,’o’,’n’]

2.元组(tuple)

元组是一种一维的、定长的、不可变的Python对象序列；

输入：在括号中添加元素，并用逗号隔开，如t=(1,2,3,4,5)；如果元组只包含一个元素要在元素后加逗号，t=(50,);

访问元组：用下标索引来访问元组中的值，print(tup1[1:5]);

修改元组：元素值不能修改，但可以进行组合tup3=tup1+tup2 print(tup3) ;

元组运算符：计算元素个数len((1,2,3)) 结果3；复制(‘Hi!’,)*4 结果（‘Hi!’, ‘Hi!’, ‘Hi!’, ‘Hi!’）;

判断是否存在3 in (1,2,3)等；

元组截取：读取元素中第三个元素L[3]；反向读取，读取倒数第二个元素L[-2]；从第二个元素开始一直截取到最后L[1:];

内置函数：len(tuple);max(tuple);min(tuple);

3.列表(list)

列表可变长，可对其内容进行修改；

输入：可通过方括号[]，或者list函数进行定义；如a=[2,3,4]；b=list(tup);修改列表中的内容list[1]=’e’,即把第二个内容换成了’e’;

访问列表：使用下标索引访问，或用方括号截取字符；

更新列表：如list[2]=100，即将列表中第三个元素更新为100；

删除元素：如del list[2]，即删除列表中第三个元素；

判断元素是否存在：如2 in a，标识在列表a中是否存在元素2，如果存在则输出True；

列表的截取和元组类似；

4.字典（dict）

字典是一种可变且可存储任意类型对象；

输入：字典中每个键值对用冒号分隔，每个对之间用逗号分隔，整个字典包括在花括号中（{}），

D={‘key1’:’value1’,’key2’:’value2’}，如dict={‘alice’:’12’,’beth’:’91’,’cecil’:’32’}

键是唯一的，值可变可取任何数据类型；

访问字典：把相应的键放入方括弧中，如print(dict[‘alice’]) 结果为12；如果字典中没有键的访问数据，则会输出错误；

修改字典：更新字典dict[‘alice’]=51 则将12更新为51；

删除字典：del可删元素也可这个字典删除（删除后字典不存在），clear可清空字典（清空后字典还存在），如del dict[‘alice’] #删除键’alice’；dict.clear() #清空字典；del dict #删除字典；

5.条件语句

If语句：

If……elif……else

每个条件后面使用冒号，表示接下来是满足条件后要执行的语句块；

6.循环语句

While循环：只要条件满足就不断循环，条件不满足时退出循环；

For……in循环：把每个元素带入变量中，依次把list或tuple中的每个元素迭代出来；

三、Requests+Xpath

爬虫：又称网页蜘蛛，是一种程序或脚本，能够按照一定的规则自动获取网页信息。

爬虫基本原理：

1.挑选种子URL；

2.将这些URL放入待抓取的URL队列；

3.取出待抓取的URL，下载并存储进已下载网页库中；此外，将这些URL放入待抓取URL队列，进入下一循环；

4.分析已抓取队列中的URL，并且将URL放入待抓取URL队列，从而进入下一循环；

爬虫基本流程：下载网页-解析页面-获取并存储内容；

爬虫的包：

Python中爬虫相关的包很多，比如Urllib、requests、bs4等，requests+xpath是其中比较简单容易上手的一种；

导入库：import+库名；（import requests用来下载网页）

调用库中的某种方法：from+库名+import+方法名；（from lxml import etree用来解析网页）

获取元素的Xpath信息并获得文本：file=s.xpath(‘元素的Xpath信息/text()’)

Xpath信息的获取：

1.定位目标元素：在网页上右键-检查；

2.光标移到对应元素时，按下快捷键“shift+ctrl+c”；

3.然后右键-copy-copyXpath；

四、实例——爬取豆瓣图书top250

1.先爬一个书名试试水；

2.再爬一下主演、片长等信息试试；

3.最后在top250的页面中爬下所有书的名字、评分、和链接；

记得加入一个sleep（）的函数，不然爬得太快ID容易被封（之前脑袋短路把循环range(10)改为了range(250)，又没有加sleep函数，被豆瓣封了）

最后编辑于：2019.03.07 17:28:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

《Python爬虫零基础入门》课程笔记

推荐阅读更多精彩内容