-
哈罗又见面了,我就是那个菜鸟。
- 这次我看着知乎大佬爬嗅事百科的案例,自己爬了下挖段子网,来分享一下。
- 代码敲累了?爬几个段子了一下,段子五分钟代码两小时。
'''
根据知乎大神
代码作者:高佳乐
'''
import re ##导入re库
import requests ##导入requests
import time ##导入time
#from bs4 import BeautifulSoup ##导入bs4
##定义一个去空格的类
class Tool(): ##定义一个类,这个类是去除空格
def replace(self,html): ##方法,有两个参数
html = re.sub(re.compile('<br/>|<br />','',html)) ##html=re.sub是替换函数,re.compile是换成正则表达式。
return html
class Spider(object): ##定义一个类,名字叫爬虫的类
##初始化方法
def __init__(self): ##初始化
self.url = 'http://www.waduanzi.com/' ##他的url是首页,因为后边的都是首页加数字了
self.tool = Tool() ##他的tool是清理后空格
##定义一个发送请求的方法
def Request(self,getUrl): ##定义request方法,参数是geturl
html = requests.get(getUrl) ##html是请求参数的地址
html_text = html.text ##html_text是html的text后
return html_text ##返回他的text格式
##定义一个获取准确字节的方法
def Obtain(self,obtain): ##定义Obtain方法,有两个参数
html_text = self.Request(obtain) ##html_text是他的参数,用上个方法返回来的text
##下边是定义一个正则表达式可以这么说了,好吧我承认,我不熟练,这个表达式我配了一阵,我看着谷歌配成功的,别的浏览器属性会跑。
regular = re.compile('<div.*?post-box.*?post-author.*?<img target.*?>.*?<a.*?_blank".*?>(.*?)</a>.*?item-detail.*?item-title.*?item-content">(.*?)</div>.*?item-toolbar.*?fleft.*?<a.*?>(.*?)</a>.*?fleft.*?<a.*?>(.*?)</a>.*?</li>',re.S)
itmes = re.findall(regular,html_text) ##items 获取到findall所有符合到的,不过格式是一个列表,每项是元组
number = 1 ##number=1就是计数器
for itme in itmes: ##因为是列表,要用什么,对遍历
print('第%d个\n楼主:%s\n正文:%s\n点赞:%s\n踩:%s'%(number,itme[0],itme[1],itme[2],itme[3]))##输出格式是这样额
print() ##这个是换行输出
number+=1 ##计数器就要+1
return itmes ##返回那个集合
##保存文件
def save(self,data,name): ##定义save方法两个参数
filName = 'page'+name+'.txt' ##定义一个名字
f = open(filName,'wb') ##f = 定义的名字和能读写模式
f.write(data.encode('utf-8')) ##写入data的utf8模式
f.close() ##关闭文件,随开随关才是好孩子
##操作打开保存
def onesave(self,url,save): ##定义一个方法,就是打开后保存
html = self.Obtain(url) ##html是运用上一个方法获取列表
self.save(str(html),str(save)) ##保存(str(html),str(save))第一个str是转换成字符串,第二个也是因为第二个要+连接的
##第几页
def page(self,star,end): ##定义第几页的方法,两个参数,开始和结束
if star == 1: ##如果输入的1
print('正在读取第1页') ##正在读取第一页
self.onesave(self.url,star) ##就是打开保存第一页,url是初始化的首页
print('第一页获取结束') ##第一页获取结束
number = 2 ##然后number=2是要计数,因为第一页已经开始的所以从第二个
for i in range(number,end+1): ##然后循环,从第二个开始,到end+1结束,为什么,因为for取头不取尾
print('正在读取%s页'%i) ##正在读取i
page = self.url+'/page/'+str(i) ##page是页数,因为在网页得知几页几页是,主页+/page/几页的
self.onesave(page,i) ##然后打开保存
print('%s页结束'%i) ##输出结束
time.sleep(2) ##等待时间,爬虫嘛,要有礼貌的爬
number+=1 ##计数器
if number == end+1: ##上边循环完了判断,计数器是不是=end+1了。不出意外就会
print('加载结束') ##加载结束
return False ##返回False
elif star>1: ##如果开始是大于一的
number = star ##就让计数器=输入的
for i in range(star,end+1): ##循环从输入的和结束+1循环
print("正在读取%s页"%i) ##正在读取
page = self.url+'/page/'+str(i) ##就是获取网址的
self.onesave(page,i) ##打开,保存
print('%s读取结束'%i) ##读取结束
time.sleep(2) ##礼貌,要礼貌,论爬虫的素养
number+=1 ##计数器不+1还有什么意义
if number == end+1: ##循环结束了等于end+1
print('加载已结束') ##循环结束
return False ##返回False
duqu = Spider() ##实例化
duqu.page(star=(int(input('请输入你要获取的开始'))),end=int(input('请输入结束页数'))) ##实例的page获取的开始,结束
- 我怕缩进出问题我就复制粘贴了我的代码。就是这么懒,打我啊。
-
代码完成是这样子滴。
- 好了我的代码就是这些。我类也是刚刚学的,所以就用了类
- 可能是我总是试一试,网站好像emmm,把我拦截了,我没有用代理,不太熟就没做。
- 爬虫嘛,要礼貌,礼貌。