初级火车头采集器教程分享

古人云:“工欲善其事,必先利其器”。在简书写了将近123篇文章,仅粗略分析过几次数据,使用的方式均是手工采集数据,效率上相对比较慢,此前,有用过火头采集器,效率上比手工采集快好几倍。因此,将自己使用心得分享一下,该教程属于火车头采集器初级版。

本文目录:

  • 采集背景介绍
  • 采集方法步骤说明
  • 个人经验小结

一、采集背景####

采集背景:采集简书文章标题、网址、阅读数
目的:用来做数据分析
使用工具:火车头采集器(火车采集器是一款互联网数据抓取、处理、分析,挖掘软件。)

二、采集方法步骤说明####

步骤1:安装火车头采集器(注意:需要安装net4.0框架才能运行)

火车头采集器下载地址:
http://www.locoy.com/

步骤2:注册账号

步骤3:了解基本界面

a.点击开始——>新建文件夹(并重新命名,以便你自己清楚采集的是什么)——>新建任务

b.新建任务后,弹出设定任务规则框(以下几点要注意)

(1)填写你所要采集的内容所在的网址。如果是有规律的话,可以通过【向导添加】相关规则,如下:简书为例,我要采集自己简书中的内容数据,进行分析。主要采集的内容在列表页,但因为简书采用的是惰性加载方式,翻页的内容我是无法采的,于是就需要查看源代码(这里需要懂一定代码知识的童鞋才能找到),然后在源代码中,找到相关的链接,而且是有规律的,于是我就可以通过【向导添加】添加相关规则。具体的规则继续看下面的步骤4.

向导添加界面:

步骤4:写网址提取规则

我在源代码中找到的列表链接,要采集所有的链接就必须把所有的翻页找出来,翻页是有规律的,于是得到下面这个规则。只有链接中的“page=”后面的地址参数是变化的,于是我们可以对参数用[地址参数]进行设定。然后选择【地址参数】中的数字变化,因为是数字。共有14个,于是有14项。

设定好地址格式后,我们可以进一步设置自己在该页面所要采集的内容了。那就是,我们要通过列表页采集每篇文章的网址,方法如下:

(1)在获取内容网址,选择获取方式:自动获取地址链接。
(2)使用链接过滤:提取文章链接,文章的链接是有共性的 。

填写完这些后,点击【网址采集测试】,这时候你可以验证规则是否正确。

验证OK!规则正确!棒棒哒!写完规则,记得要保存!

步骤5:写内容提取规则

采集到每篇文章的网址后,我们接下来就是要采集每篇文章的相关信息:标题、网址、阅读数、喜欢数!这是我们的终级目标! 写完规则,记得要保存! 方法见下图:

PS:这个同样是需要懂一定的html代码知识。

添加规则如下:

(1)在标签列表添加要采集的标签名称,该框右侧有个“+”可以加多个标签。
(2)数据获取方式选择:从源代码中获取数据,提取方式选择“前后截取”,然后在源代码中提取我们所要信息的前后代码,记住,要是唯一的代码,避免提取出来出错。

补充:教大家提取前后代码

在网页中,右键查看源代码。找到标题。我们会发现重复的标题有多个。但要选择那个前后代码是唯一的那个,可以通过ctrl+f进行验证是否是唯一的。下面这个为标题的前后代码,剩下的几个元素前后代码,大家自行练习下哈。

步骤6: 设定储存位置

点击内容发布规则——>保存为本地文件——>启用本地文件保存——>保存设置文件格式选txt(原因是我们使用的是免费软件)——>设定保存位置

步骤7: 启动采集,设定储存位置设定好规则后,保存并退出,回到工具首页,启动采集——>这3处一定要勾选,然后右键选择——>开始。见下图:

献上采集后的初级数据:

献上清洗后的数据及相关的数据分析,见下图:

三、个人经验小结####

附:数据分析小结——阅读量高的原因

1.在搜索引擎有排名,从搜索引擎获得一定的流量。(秘诀在标题上,可先借助百度指数挖掘有搜索量的关键词,且该关键词与你的文章主题相契合。当你的文章写得不错,且有一定的互动性,又获得其它人的转载后,将有机会获得排名)

2.部分文章是因为早期获得简书首页推荐,这个与简书首页早期首页推荐规则有关系,早期的首页推荐一旦上首页,阅读量等相关的用户数据都是比较可观的。但简书为了更好的用户体验,已进行调整了推荐规则(个性化首页定制,根据用户自选的主题,推荐热门的内容)。因此,要想在简书获得好的阅读量,内容好是一方面,另一方面还要注意平台产品新规。

3.用好简书的相关专题,将写好的文章进行投稿到对应主题的专题,也有利于提升文章的曝光度。

最后小结:

这是个大数据时代,要有大数据的思维,通过数据分析,我们可以了解到文章背后的一些影响因素,从而,让我们在运营自媒体账号方面,会更加的有的放矢,而懂一门编程语言,或者采集工具的使用方法,则是锦上添花的一种方式。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,384评论 25 707
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,016评论 4 62
  • 他深情的望着他,眼神充满期待,他回应着他,那样的含情默默,他们跳着属于他们的双人舞,似乎这一刻全世界只有他们两,他...
    人生漫步阅读 682评论 0 1
  • 梓馨: 轉眼間你已四歲了,按照我倆的約定,這次想和你聊聊時間與生命,因為這封信註定是寄給未來的你。想著以後某...
    米多爸爸阅读 763评论 0 2
  • 此生是我负你, 若有来世, 你不嫌弃, 我必以生死许! 情若此, 最无奈是别离, 满腹衷肠难诉。 伤心处, 竟是无...
    花少颜阅读 264评论 0 0