相信不少小伙伴对爬虫都有或多或少的了解。所谓爬虫,就是自动抓取互联网信息的程序,可以从互联网上抓取我们想要的数据,文字,图片,视频等信息。大名鼎鼎的搜索引擎谷歌、必应等,就是使用爬虫程序获取全网信息,再将匹配到到搜索结果呈现给我们的。
然而,可惜的是,利用谷歌这样的搜索引擎,我们很难直接获得有组织的数据,并将其放入我们自己的数据库中。
比如,批量下载某某主题相关的图片,批量查询城市某地区的租房价格并展现为图表,批量获取今年的校园招聘信息并根据自己的要求筛选出结果。等等。这些,使用谷歌,你需要一个网页一个网页去点击,然后复制、粘贴、下载。
但是,使用爬虫,你只需要编写一段程序,点击运行,然后就可以去喝咖啡了。等你喝完,这些数据已经躺在你的文件夹里,甚至已经自动输入到excel表格中,省去你盯着屏幕,累瞎眼的烦恼。简直是调研、咨询、统计的利器。
好,那么少啰嗦,先看东西。看看用爬虫可以做哪些有意思的事情:
-
批量获取亚马逊上商品的价格和种类,直接对比,一目了然。
-
获取当日新浪新闻的标题、来源和列表,一目了然。
-
批量下载喜马拉雅专辑音频。
-
当然,还有老司机们最喜欢的...那啥...
看到这里,是不是有点按耐不住心中的喜悦。爬虫可以做这么多事情啊。写几行代码,获得了资源,简化了工作,实在是老少咸宜,懒人必备。
那么,我们开始吧。本教程将从最简单的爬虫程序开始,拓展你的资料库。如果是没有python学习经验的朋友也没关系,本教程无需纠结枯燥的语法,咱们直接从实战开始吧。
声明:本教程及代码仅作教学之用,无意侵犯其它网站或公司版权。对于套用本教程代码非法爬取其他网站或公司非公开数据而导致的损害,本教程不承担任何责任。