利用windows上的虚拟机执行定时爬虫并存入本地数据库!!

今天在畅游的主要工作内容是爬取百度贴吧的内容,今天上玩班就要三天碰不到公司的电脑,所以想搞一个定时任务,能在这三天里面每半个小时执行一次爬虫,但是自己不太熟悉windows下定时执行爬虫,所以想到了一个不成熟的想法,利用linux来解决问题,于是忙碌的一天开始了!

1、windows安装mongodb

windows安装mongodb,其实还是比较简单的,首先去官网上下载一个windows版本的mongodb安装包

地址为:https://www.mongodb.com/download-center?jmp=nav#community

选择一个合适的版本就好,这里我选择:

下载完后点击安装,一路下一步即可,这里我忘记了更换安装路径,无奈装到了c盘。

注意把mongodb的bin路径添加到系统路径:

添加mongodb到系统路径

接下来,需要新建一个用于存储数据文件的文件件,我建在了d盘 mongodb/data路径下,那么首先进入到mongodb的bin路径,在windows的控制台下使用如下命令进行启动:

mongod -dbpath "d:\mongodb\data"

启动成功!

成功启动!

2、编写爬虫

scrapy相信大家都比较熟,经过两三个小时的编写把,成功编写了一个百度贴吧的爬虫,并将抓取到的数据存入mongodb,最终的爬虫效果如下:

爬虫效果1

这里除了帖子的基本信息外,还保存了第一页的回复信息,stairs保存了每一楼的信息,在每一楼内,还可能存在楼内的回复,那么每一楼的结构如下图:

楼内回复效果

这里我记录下了每一楼内的对话信息,包括谁回复的谁以及回复的内容。

3、安装VMware和ubuntu

接下来需要在windows上安装vmware和ubuntu虚拟机,这里就不多说了

vmware下载地址:直接百度搜索,使用百度提供的链接下载,这里附上一个破解码

5A02H-AU243-TZJ49-GTC7K-3C61N

ubuntu下载地址:http://cdimage.ubuntu.com/daily-live/current/

4、实现windows和ubuntu的互联

这里选择NAT的网络连接方式:

随后,在windows上网络连接中设置VMware Network Adapter VMnet8的ip,如下图:


此时,在虚拟机中就可以ping通本地了,而这个ip,将作为mongodb的server地址使用:

ping成功!

5、将代码放入虚拟机中,并配置开发环境

把代码从本地放入虚拟机中,可以考虑使用u盘拷贝的方式,在虚拟机中,我们需要修改连接mongodb的代码,如下图所示,使用刚才我们设置好的ip:

修改连接ip

此时执行爬虫已经可以正常存储数据到本地的mongodb

6、设置定时爬虫

这里我们选择使用linux的crontab来设置定时爬虫,首先编写爬虫脚本,编写tieba.sh文件:

使用vim进行编写

爬虫执行脚本

接下来编写tieba.cron定时执行文件,这里我设置每隔20分钟进行一次爬取:

有关crontab的知识大家可以参见http://www.jb51.net/LINUXjishu/19905.html,相信很快就能学会!

接下来使用如下命令让这个定时命令跑起来:

查看我们设置好的定时任务:

查看定时任务

大功告成:测试成功,我们可以看到有一条来自虚拟机的mongodb连接:

而我们数据库呢,也已经装满了很多帖子数据:

心满意足,下班回家,希望我的爬虫不会出问题把,大家周末快乐!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容