人人都能学会的数据爬虫

网络蜘蛛侠,要多酷有多酷


1.准备:谷歌浏览器、Webscraper.

2.百度将Webscraper安装到谷歌浏览器上面。

3.打开需要爬虫的网页,开始爬虫。


人生中第一只爬虫,刨了偶像在知乎回答的问题标题。

总结一下我的做法:

第一课业

最开始,试着爬虫,然后不知道id写什么,因为前面没怎么听到是自由设置题目的,所以直接看了视频答疑,才发现,可以自由设置标题,也就是视频中的“title”,视频重复看了几遍,因为自己中间要么是漏掉mutiple,要么只抓到5条标题。错误很多啊,咋办呢?还不是只有挨着来看哪个环节出问题了,于是乎一步一步跟着视频来,欸!对了!然后,只爬出了55条。下图1

不对呀,好像是没有完整呀?咋整呢?原来呀,是时间设置太短,反应不过来(暂且我就这么通俗的理解吧),所以呢,更改了时间,为2000,然后就激动地等待………………

此处是漫长等待分割线(网速不给力)

……………………………………………………………………………………………………………………………………

cool!得到130条数据!如下图2。


所以

复盘整个爬虫顺利的流程是:

1.打开目标网址,右键选择【检查】,开始召唤得力大侠黑蜘蛛朋友【webscraper】;

2.开始建立一个任务,新建站点【Creat new sitemap】,自定义输入站点名称,输入当前网址;

3.新建一个选择器【Add new selector】,这相当于设定一个爬虫规则,让黑蜘蛛知道爬哪些元素;

4. 点击【select】去抓取目标元素,这里是偶像回答问题的标题;点击第一个标题,然后点击第二个标题,相当于就定位好了你想要选择的元素,鼠标拖动页面,查看,这时候这一同类型的元素应该都选择好了。显示为红色。(未选择的为绿色),然后点击【Done selecting!】

5.  输入ID名称,勾选【Multiple】.这里的ID我最开始还不懂,其实就是你当前要爬的内容,定一个名称,比如这里是标题,视频教程里就输入的是“title”,然后点击【Element preview】,核对是否选中所有要爬的内容,也可进行后几页内容的查看。

6. 最后保存选择器【save 】,然后页面就设置完毕,然后开始抓取,在【sitemap(a-laohuang这个是你最初创建站点的名字)】下面,点击【Scrap】,等待蜘蛛大侠工作完毕。

然后数据就出来啦!这个是单页爬取的内容,那么,还有分页呢,也就是说一个内容太多,不止一页内容,我们需要所有的数据咋整?

1.这时候,就需要编辑分页抓取啦。打开第二页或者第三页,点击【Sitemap】——【Edit metadata】,然后将网页网址复制下来粘贴到网址区域,网址末端显示的是page=2,这时候我们把数字2删除,然后输入页面区域:“[1-7]”因为总共有7页嘛。点击【保存】,开始抓取【scrap】

2. 导出格式,打开查看。【Export data as CSV】

3.大功告成!!!!!!!不过,如果数据很少,这代表抓取的过程中,网页内容还没有生成,我们访问速度快了。所以呢,就需要重新把访问时间加长,把选择器中的【delay】输入为2000,还有就是在【scrap】种直接把默认的500改成2000,或者3000(也就是2秒3秒,也可以设置更大数字,比如5000)

4. 最后点击【Star scraping】开启爬虫。最后结果应该就是完完整整的数据啦~  要注意那个时间的设置,比如3000也就是,每打开一个分页,等待3秒后才让蜘蛛大侠去爬数据。这下真正的大功告成,当当当当!


结果:

通过爬虫学习,对数据收集有一个进阶提升,干活儿(需要收集想要的数据的时候)效率飞速提升。


进阶操作:

【亲子活动爬虫】794条

目的:抓取所有亲子游下相关数据,得出结果,并进行相关简单分析。

爬取数据需要解决的问题:

1.总节目多少?

2.展览类型多少?

3.非常受欢迎的活动是什么性质的?

……(其他的就是excel技能了,本人excel技能有点烂)

抓取时间:8月5日09:13分

抓取步骤:

1.建立元素集,选择scrolldown,选择总区域

2.分辨建立子元素选择器,name,type,price,paticipants

3.其中报名人数不好选择,鼠标移动到报名人数,右键选择检查,用contrl+F,查找类型,最后发现是i.joincnt    复制到选择其中,然后 done selecting

4.将数据整理,没找到快速填充,查了半天也没弄清楚,哈哈,偷懒了。用的分隔符,复制“|”。然后将数据分列处理。

抓取结果及分析:

1.总节目共794条。(这里可以对比同类别城市的数据结果,可以得到上海与北京,广州,深圳的对比)

2.展览类型共65条(选择某一列数据,然后点击数据-筛选-找到展览-回车)

3.价格最高:

最高:大师出名级别的音乐视听演出,高过其他的4-5倍不等

其次:是小朋友参与性强的,比如俱乐部,比如户外活动。

4.受欢迎程度:

最欢迎TOP1:科技类活动《畅玩2000平+14个顶尖太空科技体验项目+VR穿越时空》3305销量

其次:马戏魔幻类《欢乐马戏》小朋友最爱!传递欢乐与幽默!2571销量

还有票量极少的,分析方法同上,比如票量少的如何优化,这些就是具体到策略执行层了。而我们日常分析一个数据,除了看人家的数据结果,以及分析结果之外。

最重要的就是对比到自己做事。比如如果我是总策划,我应该从哪些方面入手优化这些活动,从而提升销量。比如我可以分析其他城市同类活动数据,寻找维度,分析指标。提出优化策略。比如活动标题,是刺激大家点击查看详情的重点,如何优化等。


最后深深有一种茅塞顿开的感触:

工具解放你的四肢,好比如各种笔记软件解放了你的大脑。


又掌握一门技能,感觉真好。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容