网络爬虫的基本介绍
学习爬虫,我想主要从以下几个方面来切入
-爬虫的原理?
-爬虫的作用?
-爬虫的实现?
-爬虫的工具?
爬虫的原理
爬虫就是一种自动获取网页内容,提取有价值的数据的技术。把互联网比喻成一个蜘蛛网,把你想象成一只蜘蛛,如果要你浏览全部网页,你会如何进行?从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络爬虫的基本操作是抓取网页。
爬虫的作用
方便获取互联网数据,为我所用。假如你是一个科幻迷,想要获取豆瓣上关于科幻电影的信息,你就可以通过写一个简单的脚本,去抓取关于科幻电影的信息。又或者朋友向你推荐一部好看的动漫,你想要下载整部动漫时,你也可以写个爬虫程序,去获取下载链接。
爬虫的实现
爬虫实现的过程中主要包括了抓取网页、存储、网页分析、展示预期结果。
爬虫的工具
刚开始学习爬虫,我们需要掌握以下几个库的使用。
1.打开网页,下载文件:urllib、urllib2
2.解析网页:BeautifulSoup,熟悉JQuery的可以用Pyquery
3.使用Requests来提交各种类型的请求,支持重定向,cookies等。
4.使用Selenium,模拟浏览器提交类似用户的操作,处理js动态产生的网页