鸟与虫（二）代码敲累了？来个段子

哈罗又见面了，我就是那个菜鸟。
这次我看着知乎大佬爬嗅事百科的案例，自己爬了下挖段子网，来分享一下。
代码敲累了？爬几个段子了一下，段子五分钟代码两小时。

'''
    根据知乎大神

    代码作者：高佳乐

'''
import re                         ##导入re库
import requests                   ##导入requests
import time                       ##导入time
#from bs4 import BeautifulSoup    ##导入bs4
##定义一个去空格的类
class Tool():                     ##定义一个类，这个类是去除空格
    def replace(self,html):       ##方法，有两个参数
        html = re.sub(re.compile('<br/>|<br />','',html))  ##html=re.sub是替换函数，re.compile是换成正则表达式。
        return html

class Spider(object):                                      ##定义一个类，名字叫爬虫的类
    ##初始化方法
    def __init__(self):                                     ##初始化
        self.url = 'http://www.waduanzi.com/'               ##他的url是首页，因为后边的都是首页加数字了
        self.tool = Tool()                                  ##他的tool是清理后空格

    ##定义一个发送请求的方法
    def Request(self,getUrl):                               ##定义request方法，参数是geturl
        html = requests.get(getUrl)                         ##html是请求参数的地址
        html_text = html.text                               ##html_text是html的text后
        return html_text                                    ##返回他的text格式

    ##定义一个获取准确字节的方法
    def Obtain(self,obtain):                                ##定义Obtain方法，有两个参数
        html_text = self.Request(obtain)                    ##html_text是他的参数，用上个方法返回来的text
        ##下边是定义一个正则表达式可以这么说了，好吧我承认，我不熟练，这个表达式我配了一阵，我看着谷歌配成功的，别的浏览器属性会跑。
        regular = re.compile('<div.*?post-box.*?post-author.*?<img target.*?>.*?<a.*?_blank".*?>(.*?)</a>.*?item-detail.*?item-title.*?item-content">(.*?)</div>.*?item-toolbar.*?fleft.*?<a.*?>(.*?)</a>.*?fleft.*?<a.*?>(.*?)</a>.*?</li>',re.S)
        itmes = re.findall(regular,html_text)               ##items 获取到findall所有符合到的，不过格式是一个列表，每项是元组
        number = 1                                          ##number=1就是计数器
        for itme in itmes:                                  ##因为是列表，要用什么，对遍历
            print('第%d个\n楼主：%s\n正文：%s\n点赞：%s\n踩：%s'%(number,itme[0],itme[1],itme[2],itme[3]))##输出格式是这样额
            print()                                         ##这个是换行输出
            number+=1                                       ##计数器就要+1
        return itmes                                        ##返回那个集合

    ##保存文件
    def save(self,data,name):                               ##定义save方法两个参数
        filName = 'page'+name+'.txt'                        ##定义一个名字
        f = open(filName,'wb')                              ##f = 定义的名字和能读写模式
        f.write(data.encode('utf-8'))                       ##写入data的utf8模式
        f.close()                                           ##关闭文件，随开随关才是好孩子

    ##操作打开保存
    def onesave(self,url,save):                             ##定义一个方法，就是打开后保存
        html = self.Obtain(url)                             ##html是运用上一个方法获取列表
        self.save(str(html),str(save))                      ##保存(str(html),str(save))第一个str是转换成字符串，第二个也是因为第二个要+连接的

    ##第几页
    def page(self,star,end):                                ##定义第几页的方法，两个参数，开始和结束
        if star == 1:                                       ##如果输入的1
            print('正在读取第1页')                            ##正在读取第一页
            self.onesave(self.url,star)                     ##就是打开保存第一页，url是初始化的首页
            print('第一页获取结束')                            ##第一页获取结束
            number = 2                                      ##然后number=2是要计数，因为第一页已经开始的所以从第二个
            for i in range(number,end+1):                   ##然后循环，从第二个开始，到end+1结束，为什么，因为for取头不取尾
                print('正在读取%s页'%i)                       ##正在读取i
                page = self.url+'/page/'+str(i)             ##page是页数，因为在网页得知几页几页是，主页+/page/几页的
                self.onesave(page,i)                        ##然后打开保存
                print('%s页结束'%i)                          ##输出结束
                time.sleep(2)                               ##等待时间，爬虫嘛，要有礼貌的爬
                number+=1                                   ##计数器
            if number == end+1:                             ##上边循环完了判断，计数器是不是=end+1了。不出意外就会
                print('加载结束')                             ##加载结束
                return False                                ##返回False
        elif star>1:                                        ##如果开始是大于一的
            number = star                                   ##就让计数器=输入的
            for i in range(star,end+1):                     ##循环从输入的和结束+1循环
                print("正在读取%s页"%i)                       ##正在读取
                page = self.url+'/page/'+str(i)             ##就是获取网址的
                self.onesave(page,i)                        ##打开，保存
                print('%s读取结束'%i)                         ##读取结束
                time.sleep(2)                               ##礼貌，要礼貌，论爬虫的素养
                number+=1                                   ##计数器不+1还有什么意义
            if number == end+1:                             ##循环结束了等于end+1
                print('加载已结束')                           ##循环结束
                return False                                ##返回False


duqu = Spider()                                             ##实例化
duqu.page(star=(int(input('请输入你要获取的开始'))),end=int(input('请输入结束页数')))  ##实例的page获取的开始，结束

我怕缩进出问题我就复制粘贴了我的代码。就是这么懒，打我啊。
代码完成是这样子滴。

搜狗截图20180527151549.png

好了我的代码就是这些。我类也是刚刚学的，所以就用了类
可能是我总是试一试，网站好像emmm，把我拦截了，我没有用代理，不太熟就没做。
爬虫嘛，要礼貌，礼貌。

好了又该下次见了，等我学了新知识，做下一个案例，砸门，下一次见，拜拜。!

最后编辑于：2018.07.03 11:08:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,332评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,930评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,204评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,348评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,356评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,447评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,862评论 3赞 394
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,516评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,710评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,518评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,582评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,295评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,848评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,881评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,121评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,737评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,280评论 2赞 341

鸟与虫（二）代码敲累了？来个段子

哈罗又见面了，我就是那个菜鸟。

好了又该下次见了，等我学了新知识，做下一个案例，砸门，下一次见，拜拜。!

推荐阅读更多精彩内容