网络爬虫

我们已经从信息时代跨入了大数据时代,不管是养猪还是开网店,都是要基于信息和大数据的,嗯!


信息时代到大数据时代,信息量越来越大,互联网在急速膨胀,我们可以获取大量的信息,如何有效地收集、提取和利用信息成为了一个巨大的挑战。

搜索引擎成为了我们检索信息的入口,网络爬虫就是搜索引擎的重要组成部分。同时,网络爬虫也是我们从大数据中提取有价值信息的重要方式。

1、什么是爬虫

按照一定规则,自动抓取网络信息的机器人。搜索引擎需要收录大量的网站网页,并对网页按照信息进行索引,这样,用户使用搜索引擎检索的时候就能得到一个结果集。这些网页就是通过 网络爬虫爬取的。爬虫 爬取页面,然后对页面信息进行处理和索引,供搜索引擎使用,这种类型的爬虫是通用型爬虫。

通用型爬虫之外还可以编写聚焦型爬虫,爬取指定主题的相关网页,用来做主题相关的数据分析。爬虫还可以抓取特定网站和应用的数据,分析网站和应用的情况等。

爬虫是个机器人程序,需要模拟用户的操作和访问方式,在模拟的基础上实现自动化的访问。网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。

2、通用型网络爬虫

搜索引擎的好坏很大程度上取决于爬虫系统的工作结果,爬虫收集网页、提取信息、进行信息索引,SEO优化,也就是需要对主流搜索引擎的爬虫友好,并且突出页面关键字信息给爬虫。


3、特定功能的爬虫

对于特定类型的爬虫,可以有很多用途,比如:各种类型的投票。。。;自动的抢票功能。。。;舆情监控;行业咨询报告等

投票抢票在工作中如果不是特定类型的工作,是没有太大用途的,但是行业咨询报告,在决策中是很有用途的,不管是针对一个行业还是针对一个公司、一个应用,都可以进行数据分析,以便作出相应决策来应对。下面介绍使用的两种开发方式,满足不同场景的数据需求。

4、在框架(scrapy)中开发

一般我们需要开发的爬虫属于特定功能爬虫,一般是用来收集数据,做数据分析的。Python处理HTTP请求、HTML、json、文本数据还是相当有优势的,所以选择使用 python 的爬虫框架来开发爬虫。

Scrapy 是为了爬取网站数据,提取结构性数据而编写的应用框架,scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试等。

整体架构大致如下:


1、通过继承 spider,实现 parse 方法,就可以实现网页下载,如果 parse 里面返回 Request(可以制定 parse 方法)可以实现二级页面的抓取和分析。

2、抓取网页后,在parse 里面 可以通过 xpath 定位页面元素,抓取页面信息

3、通过item 存储 需要获取的数据对象,在parse 中根据页面信息生成item

4、抓取页面后进入 pipeline,处理 item,保存数据或者进行计算等

通过框架抓取页面、分析页面元素方便,可以高效地开发特定功能的爬虫。

5、用 python requests 开发

有些情况,需要抓取和分析的页面可以通过接口获得,页面比较有规律,这个时候没必要用到爬虫框架,使用 requests 就可以方便地完成数据抓取。Requests 是python 中的非转基因 HTTP 库,人类可以安全使用 😢。Requests 可以方便地实现接口调用、解析json数据、获取信息,开发和运行迅速。


个人认为,爬虫技术是一门非常有用的技术,这么技术建立在 xml、html语言结构、http协议,xpath 处理等基础之上,通过学习爬虫技术可以对相应的底层知识了解更深,再深入还有分布式爬虫等技术。爬虫等用途也比较广泛,在工作和学习中有很大的帮助。

以上,是工作中遇到的问题和相关的思考、实践,嗯,加油

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容