看书和实践

无敌

这段时间买了一些有关Python的书，每天一边看，一边写一些爬虫的代码，导致博文一直没有跟上进度，没有及时记录自己的学习状况。

从学习Python的第一天起，到现在也已经学习了将近5本Python的书籍了。两本电子书，三本纸质书。分别是《笨办法学Python》、《简明Python教程》；《零基础学Python》、《Python语言及其应用》、《Python学习手册》。还有一本《Python核心编程（第二版）》没有开始看。这些书可是一本比一本厚。这些书是从这里看到的：黄哥推荐学习Python 10本好书。为了扎实基础，不断反复学习Python的语法，数据结构等知识，我觉得反复学习基础知识并不是一种浪费时间的行为，扎实的基础在学习更深奥的知识时才能快速理解。

在看书的过程中，发现Python不仅是一门强大的语言，更是一个需要不断探索的巨大宝库，内容无穷无尽。每学习一段时间就感叹Python的强大和巨大。每一本Python书都有无穷的知识需要被挖掘，光读纸质书是远远不够的，在看书的过程中，作者都会推荐在使用Python库的时候先阅读库相关的文档。现在我主要是在学习爬虫，必须看的就有BeautifulSoup和Requests库的官方文档。还好有中文版的，虽然现在的浏览器都有翻译功能，翻译的质量也不低，但是机器就是机器，翻译的时候会把代码一并翻译，看着很痛苦啊。现在看书的时候虽然没有及时更新博文，但是在学习的过程中遇到问题我会记录下来，等看完书再查资料解决，这种方法也有助于巩固知识，而且我现在手边Python的书也有几本了，有一些内容可以几本书同时比较学习，感觉很不错。

接下来就是练习写代码了。写代码一开始是一个很花费时间的事情，因为你得考虑写代码的思路，解决遇到各种各样的有趣的问题。我的第一个爬虫代码虽然只有30行左右，但是花费了我将近两个晚上一个白天的时间，结果还是好的，达到了我的预期效果。不过有一些细节还是需要注意的。在写代码的过程中，我发现有很多问题需要注意，如果你和我一样同样是新手，就当我给你提醒了。

写代码之前最重要的是要考虑清楚，这段代码写完以后，需要完成一个怎样的任务，然后把任务细分化。比如说我的第一个代码是批量下载图片，这也是爬虫新手经常练习的代码。思路要清晰：

解析网站，利用浏览器的开发者模式查看网页代码
分析图片URL所在的标签
把URL对应的图片保存到本地

这就是我爬取图片的思路。然后解决每个问题。

首先要解决的是分析网站的URL：

from urllib.request import urlopen

也可以配合使用BeautifulSoup，不过不是必须的：

from bs4 import BeautifulSoup

导入这两个库以后就可以开始写代码了。因为一会儿还要使用正则表达式匹配，所以再导入re库

import re

我们完成这个任务要分三大部分，第一步是解析网页，第二步利用正则找出我们要的内容，第三步就是保存到本地。

def get_html(): 
        url = "https://movie.douban.com/chart" 
        douban = urlopen(url) 
        html = douban.read() 
        html = html.decode("utf-8") 
        return html

这段代码就是分析豆瓣电影的URL，运行以后控制台输出了网页的源代码。这就是第一步。第二步我们需要找到图片的相关代码：

豆瓣图片代码

这段是我们在写正则表达式要用到的。

第二步，定义函数，用正则表达式筛选出图片对应的URL和电影名称。

def get(html): 
        reg = re.compile(r'![]((.*?))') 
        item = re.findall(reg, html) 
        print(item) 
        return item

这两步完整的代码是：

from urllib.request import urlopen
import re

def get_html(): url = "https://movie.douban.com/chart" 
        douban = urlopen(url) 
        html = douban.read() 
        html = html.decode("utf-8") 
        return html

def get(html): 
        reg = re.compile(r'![]((.*?))')
        item = re.findall(reg, html) 
        print(item) 
        return item

a = get_html()
get(a)

运行结果：

[('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2393044761.jpg', '驴得水'), 
('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2391556881.jpg', '夜行动物'), 
('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2402824160.jpg', '28岁未成年'), 
('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2407543903.jpg', '无名女尸'), 
('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2403319543.jpg', '萨利机长'), 
('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2370911211.jpg', '中邪'), 
('https://img5.doubanio.com/view/movie_poster_cover/ipst/public/p2380677316.jpg', '湄公河行动'), 
('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2326264650.jpg', '总有一天'), 
('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2409793660.jpg', '大叔的爱'), 
('https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p2355993802.jpg', '会计刺客')]

这样就做到了图片地址和对应电影名称的筛选工作，注意这是一个列表。因为现在的能力有限，如果想要下载到本地还得创建一个新函数。

第三步，用re重新分析图片地址并下载图片：

def download(html): 
        reg = re.compile(r'![]((.*?))')
        item = re.findall(reg, html) 
        print(item) 
        i = 0
        for photo_html in item: 
                f = open(str(i) + ".jpg", "wb")
                req = urlopen(photo_html) 
                buf = req.read()
                f.write(buf) 
                print("正在下载中...")
                i += 1 
                f.close() 
        print("下载完成")

这段代码完成了图片的保存。正则表达式的工作是把图片的URL储存在列表里，for循环下载依次下载列表里的每一个文件，记得关闭文件。所以从豆瓣电影下载完整的电影海报的完整代码是：

from urllib.request import urlopen
import re

def get_html(): 
        url = "https://movie.douban.com/chart" 
        douban = urlopen(url) 
        html = douban.read() 
        html = html.decode("utf-8") 
        return html‘

def get(html): 
        reg = re.compile(r'![]((.*?))') 
        item = re.findall(reg, html) 
        return item

def download(html): 
        reg = re.compile(r'![]((.*?))')  
        item = re.findall(reg, html)
        print(item) 

        i = 0 
        for photo_html in item: 
                f = open(str(i) + ".jpg", "wb")  
                req = urlopen(photo_html) 
                buf = req.read()  
                f.write(buf)  
                print("正在下载中...") 
                i += 1 
                f.close() 
        print("下载完成")

a = get_html()
get(a)
download(a)

这是我爬虫的思路，代码很新手，也很好理解。简书的这个编辑器不好用啊。如果代码缩进有误可以在我的博客看到原文：A_lPha的读书笔记。我认为这段代码有很多可以改进的地方：正则表达式的运用，下载图片的代码都需要改进。

这是我第一个爬虫代码，后来我还写了爬取简书30日排行榜，豆瓣电影排行榜等代码，因为正则表达式的问题，还不能正确匹配到信息。正则表达式还是一个需要马上攻克的难题啊，匹配不正确就不能爬到信息。

路还很长很长。

更新：完成了正则匹配工作，成功爬到了简书30日排行文章的一部分。现在需要做的是解析网页获取未加载的内容。

简书爬虫

最后编辑于：2017.12.05 06:29:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,924评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,781评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,813评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,264评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,273评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,383评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,800评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,482评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,673评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,497评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,545评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,240评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,802评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,866评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,101评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,673评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,245评论 2赞 341

看书和实践

路还很长很长。

推荐阅读更多精彩内容