Web crawler with Python - 03.豆瓣电影TOP250(转)

作者:xlzd

链接:https://zhuanlan.zhihu.com/p/20423182

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

开发环境已经搭建完成,那么让我们正式开始第一个爬虫程序吧,今天,我们的目标是——豆瓣电影TOP250

和完成其他代码一样,编写爬虫之前,我们需要先思考爬虫需要干什么、目标网站有什么特点,以及根据目标网站的数据量和数据特点选择合适的架构。编写爬虫之前,推荐使用Chrome的开发者工具来观察网页结构。在OS X上,通过"option+command+i"可以打开Chrome的开发者工具,在Windows和Linux,对应的快捷键是"F12"。效果如下:

OK,可以看出,这个页面其实有一个列表,其中放着25条电源信息。我们选中某一条电影,右键选择检查即可查看选中条目的HTML结构。如下图所示:

到这一步,我们已经得到的信息有如下:

每页有25条电影,共有10页。

电影列表在页面上的位置为一个class属性为grid_view的ol标签中。

每条电影信息放在这个ol标签的一个li标签里。

到这一步,我们可以开始写代码了。先完成下载网页源码的代码吧,这里我们使用requests库:

#!/usr/bin/env python# encoding=utf-8importrequestsDOWNLOAD_URL='http://movie.douban.com/top250'defdownload_page(url):data=requests.get(url).contentreturndatadefmain():printdownload_page(DOWNLOAD_URL)if__name__=='__main__':main()

先来简单测试一下,没想到运行之后得到的结果是:

403 Forbidden

403 Forbidden


dae

产生403的原因,一般可能是因为需要登录的网站没有登录或者被服务器认为是爬虫而拒绝访问,这里很显然属于第二种情况。一般,浏览器在向服务器发送请求的时候,会有一个请求头——User-Agent,它用来标识浏览器的类型.当我们使用requests来发送请求的时候,默认的User-Agent是python-requests/2.8.1(后面的数字可能不同,表示版本号)。那么,我们试试看如果将User-Agent伪装成浏览器的,会不会解决这个问题呢?

#!/usr/bin/env python# encoding=utf-8importrequestsDOWNLOAD_URL='http://movie.douban.com/top250/'defdownload_page(url):headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}data=requests.get(url,headers=headers).contentreturndatadefmain():printdownload_page(DOWNLOAD_URL)if__name__=='__main__':main()

上面的代码中,我们通过手动指定User-Agent为Chrome浏览器,再此访问就得到了真实的网页源码。服务器通过校验请求的U-A来识别爬虫,这算是最简单的一种反爬虫机制了,通过模拟浏览器的U-A,能够很轻松地绕过这个问题。

当我们拿到网页源码之后,就需要解析HTML源码了。这里,我们使用BeautifulSoup来搞定这件事。在使用之前,你需要通过运行pip install beautifulsoup4来安装BeautifulSoup。

使用BeautifulSoup解析网页的大致过程如下:

1. from bs4 import BeautifulSoup2.3. def parse_html(html):4.5.    soup = BeautifulSoup(html)6.7.    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})8.9.    for movie_li in movie_list_soup.find_all('li'):10.11.        detail = movie_li.find('div', attrs={'class': 'hd'})12.        movie_name = detail.find('span', attrs={'class': 'title'}).getText()13.14.        print movie_name

我将详细解释这段代码:import用来导入BeautifulSoup,这很容易理解。接着我们定义了函数parse_html,它接受html源码作为输入,并将这个网页中的电影名称打印到控制台。第5行我们创建了一个BeautifulSoup对象(这样的创建方式会产生一个warning,我们下一节再聊这个问题),然后紧接着在第7行使用刚刚创建的对象搜索这篇html文档中查找那个class为grid_view的ol标签(上面分析的第2步),接着通过find_all方法,我们得到了电影的集合,通过对它迭代取出每一个电影的名字,打印出来。至于for循环之间的内容,其实就是在解析每个li标签。你可以很简单的在刚才的浏览器窗口通过开发者工具查看li中的网页结构。

到这一步,我们已经得到了电影名称(由于只是演示BeautifulSoup的用法,这里不详细取出每条电影的所有信息),刚才提到一共有10页数据,怎么处理翻页的问题呢?一般在我们确定内容的前提下,可以直接在代码中写死如何跳转页面,但是为了让我们的爬虫更像爬虫,我们让它找到页码导航中的下一页的链接。

还是借助开发者工具,我们找到了下一页的链接放置在一个span标签中,这个span标签的class为next。具体链接则在这个span的a标签中,到了最后一页之后,这个span中的a标签消失了,就不需要再翻页了。于是,根据这段逻辑,我们将上面parse_html函数稍作修改:

defparse_html(html):soup=BeautifulSoup(html)movie_list_soup=soup.find('ol',attrs={'class':'grid_view'})movie_name_list=[]formovie_liinmovie_list_soup.find_all('li'):detail=movie_li.find('div',attrs={'class':'hd'})movie_name=detail.find('span',attrs={'class':'title'}).getText()movie_name_list.append(movie_name)next_page=soup.find('span',attrs={'class':'next'}).find('a')ifnext_page:returnmovie_name_list,DOWNLOAD_URL+next_page['href']returnmovie_name_list,None

我们需要在解析html之后取回我们需要的数据,于是将打印变成了返回一个包含电影名的list,以及下一页的链接,如果到了最后一页,则返回None。

到这里,大部分代码已经完成了,我们将其组装成一个完整的程序即可:

importcodecsdefmain():url=DOWNLOAD_URLwithcodecs.open('movies','wb',encoding='utf-8')asfp:whileurl:html=download_page(url)movies,url=parse_html(html)fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))

上面的代码完成了对程序的拼装,并将结果输出到一个文件中,其中使用了codecs这个包是为了更方便处理中文编码。当程序运行结束之后,所有的电影名称就都写入到了movies这个文件中。

小结

这篇博客总结了最简单的处理反爬虫机制,以及简单的BeautifulSoup的使用,最后完成了将结果写入到文件中去。麻雀虽小,五脏俱全,这个程序虽然功能简单,但却算是一个完整的爬虫程序了。

接下来,我们将会面临更加复杂的反爬虫机制,面对更加复杂的网页结构,以及会使用数据库来持久化存储爬取结果。

完整的代码如下:

#!/usr/bin/env python# encoding=utf-8"""爬取豆瓣电影TOP250 - 完整示例代码"""importcodecsimportrequestsfrombs4importBeautifulSoupDOWNLOAD_URL='http://movie.douban.com/top250/'defdownload_page(url):returnrequests.get(url,headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}).contentdefparse_html(html):soup=BeautifulSoup(html)movie_list_soup=soup.find('ol',attrs={'class':'grid_view'})movie_name_list=[]formovie_liinmovie_list_soup.find_all('li'):detail=movie_li.find('div',attrs={'class':'hd'})movie_name=detail.find('span',attrs={'class':'title'}).getText()movie_name_list.append(movie_name)next_page=soup.find('span',attrs={'class':'next'}).find('a')ifnext_page:returnmovie_name_list,DOWNLOAD_URL+next_page['href']returnmovie_name_list,Nonedefmain():url=DOWNLOAD_URLwithcodecs.open('movies','wb',encoding='utf-8')asfp:whileurl:html=download_page(url)movies,url=parse_html(html)fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if__name__=='__main__':main()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容