古人云:“工欲善其事,必先利其器”。在简书写了将近123篇文章,仅粗略分析过几次数据,使用的方式均是手工采集数据,效率上相对比较慢,此前,有用过火头采集器,效率上比手工采集快好几倍。因此,将自己使用心得分享一下,该教程属于火车头采集器初级版。
本文目录:
- 采集背景介绍
- 采集方法步骤说明
- 个人经验小结
一、采集背景####
采集背景:采集简书文章标题、网址、阅读数
目的:用来做数据分析
使用工具:火车头采集器(火车采集器是一款互联网数据抓取、处理、分析,挖掘软件。)
二、采集方法步骤说明####
步骤1:安装火车头采集器(注意:需要安装net4.0框架才能运行)
火车头采集器下载地址:
http://www.locoy.com/
步骤2:注册账号
步骤3:了解基本界面
a.点击开始——>新建文件夹(并重新命名,以便你自己清楚采集的是什么)——>新建任务
b.新建任务后,弹出设定任务规则框(以下几点要注意)
(1)填写你所要采集的内容所在的网址。如果是有规律的话,可以通过【向导添加】相关规则,如下:简书为例,我要采集自己简书中的内容数据,进行分析。主要采集的内容在列表页,但因为简书采用的是惰性加载方式,翻页的内容我是无法采的,于是就需要查看源代码(这里需要懂一定代码知识的童鞋才能找到),然后在源代码中,找到相关的链接,而且是有规律的,于是我就可以通过【向导添加】添加相关规则。具体的规则继续看下面的步骤4.
向导添加界面:
步骤4:写网址提取规则
我在源代码中找到的列表链接,要采集所有的链接就必须把所有的翻页找出来,翻页是有规律的,于是得到下面这个规则。只有链接中的“page=”后面的地址参数是变化的,于是我们可以对参数用[地址参数]进行设定。然后选择【地址参数】中的数字变化,因为是数字。共有14个,于是有14项。
设定好地址格式后,我们可以进一步设置自己在该页面所要采集的内容了。那就是,我们要通过列表页采集每篇文章的网址,方法如下:
(1)在获取内容网址,选择获取方式:自动获取地址链接。
(2)使用链接过滤:提取文章链接,文章的链接是有共性的 。
填写完这些后,点击【网址采集测试】,这时候你可以验证规则是否正确。
验证OK!规则正确!棒棒哒!写完规则,记得要保存!
步骤5:写内容提取规则
采集到每篇文章的网址后,我们接下来就是要采集每篇文章的相关信息:标题、网址、阅读数、喜欢数!这是我们的终级目标! 写完规则,记得要保存! 方法见下图:
PS:这个同样是需要懂一定的html代码知识。
添加规则如下:
(1)在标签列表添加要采集的标签名称,该框右侧有个“+”可以加多个标签。
(2)数据获取方式选择:从源代码中获取数据,提取方式选择“前后截取”,然后在源代码中提取我们所要信息的前后代码,记住,要是唯一的代码,避免提取出来出错。
补充:教大家提取前后代码
在网页中,右键查看源代码。找到标题。我们会发现重复的标题有多个。但要选择那个前后代码是唯一的那个,可以通过ctrl+f进行验证是否是唯一的。下面这个为标题的前后代码,剩下的几个元素前后代码,大家自行练习下哈。
步骤6: 设定储存位置
点击内容发布规则——>保存为本地文件——>启用本地文件保存——>保存设置文件格式选txt(原因是我们使用的是免费软件)——>设定保存位置
步骤7: 启动采集,设定储存位置设定好规则后,保存并退出,回到工具首页,启动采集——>这3处一定要勾选,然后右键选择——>开始。见下图:
献上采集后的初级数据:
献上清洗后的数据及相关的数据分析,见下图:
三、个人经验小结####
附:数据分析小结——阅读量高的原因
1.在搜索引擎有排名,从搜索引擎获得一定的流量。(秘诀在标题上,可先借助百度指数挖掘有搜索量的关键词,且该关键词与你的文章主题相契合。当你的文章写得不错,且有一定的互动性,又获得其它人的转载后,将有机会获得排名)
2.部分文章是因为早期获得简书首页推荐,这个与简书首页早期首页推荐规则有关系,早期的首页推荐一旦上首页,阅读量等相关的用户数据都是比较可观的。但简书为了更好的用户体验,已进行调整了推荐规则(个性化首页定制,根据用户自选的主题,推荐热门的内容)。因此,要想在简书获得好的阅读量,内容好是一方面,另一方面还要注意平台产品新规。
3.用好简书的相关专题,将写好的文章进行投稿到对应主题的专题,也有利于提升文章的曝光度。
最后小结:
这是个大数据时代,要有大数据的思维,通过数据分析,我们可以了解到文章背后的一些影响因素,从而,让我们在运营自媒体账号方面,会更加的有的放矢,而懂一门编程语言,或者采集工具的使用方法,则是锦上添花的一种方式。