为什么要学习爬虫呐?
* 学习爬虫,可以私人订制一个搜索引擎。
* 大数据时代,要进行数据分析,首先要有数据源。
* 对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化。
首先向大家简单的介绍一下什么是爬虫?
模拟客户端向服务器端发起网络请求,接收请求的响应。按照一定的规则(正则,xpath,beautifulsoup4),自动的抓取互联网信息(数据)
那么爬虫的大致流程:
第一步:分析网站,得到目标url根据url,
第二步:发起请求,获取页面的HTML源码(从页面源码中获取数据)
** 提取到目标数据,桌数据的筛选和持久化的存储
** 从页面中提取到新的url地址,
第二部操作爬虫结束:所有的目标url 都提取完毕,并得到数据,而且没有其他的请求任务了,这就意味这爬虫结束
爬虫有:通用爬虫/聚焦爬虫
聚焦爬虫:通常我们自己撸的为聚焦爬虫面向主题爬虫、面向需求爬虫:会针对某种特定的能容去爬取信息,而且保证内容需求尽可能相关
通用爬虫呐就是搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。
爬虫中请求获取用的包有 urllib / requests
urllib
#构建一个request对象
req = request.Request(url,headers=headers)
#发起请求
response = request.urlopen(req)
# 返回结果,请求状态
print(response.status)/print(response.text)
requests
response=requests.get(url,headers=headers)
print(response.status_code)
print(response.text)
当我们首先获取到首页或则摸个连接后进一步对信息进行提取,去掉无用的信息,这时我们就会用到正则啦,xpath啦,,beautifulsoup4等等
首先正则用法:正则表达式 – 语法 | 菜鸟教程
xpath用法: XPath 语法
数据存储(mysql)
import pymysql
conn=pymysql.connect(host='localhost',port=3307,user='root',password='密码',db='表名',charset='utf8')
sql =INSERT INTO lagou (%s)VALUES (%s)
#创建游标(执行sql语句)
cursor = mysql_client.cursor()