Python爬虫爬取极客学院

原文：github

import urllib.request, urllib.parse, os, urllib, http.cookiejar, re

# 下载极客学院的视频
# 需要一个vip账号(验证邮箱和手机会有体验vip)
class DownCourse(object):
    # 给urllib添加cookie支持
    # path: 下载的视频要保存的文件夹
    def __init__(self,path):
        # 初始化一个CookieJar来处理Cookie
        cookieJar = http.cookiejar.CookieJar()
        # 实例化一个全局opener
        opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookieJar))
        # 把这个cookie处理机制装上去,大概是这个意思-.-
        urllib.request.install_opener(opener)

        self.folderPath = path
        # 判断文件夹是否存在
        folderExists = os.path.exists(self.folderPath)
        if not folderExists:
            os.mkdir(self.folderPath)

    # 登陆函数
    def login(self):
        # 从登录页面获取登陆参数
        login_url = 'http://passport.jikexueyuan.com/sso/login'
        # 登陆信息发送到这个地址
        passport_url = 'http://passport.jikexueyuan.com/submit/login?is_ajax=1'
        verifyCode_url = 'http://passport.jikexueyuan.com/sso/verify'

        # 获取登陆页面源码
        request = urllib.request.urlopen(login_url)
        html = request.read()
        request.close()

        # 获取登陆要post的数据
        expire = re.search(r"(?s)value='(.*?)' name='expire",html)
        # 验证码
        verifyCodeGifPath = '/tmp/jikexueyuan.gif'
        request = urllib.request.urlopen(verifyCode_url)
        gif = request.read()
        request.close()
        fGif = open(verifyCodeGifPath,'w')
        fGif.write(gif)
        fGif.close()
        # 读取保存到本地的验证码图片
        os.system('eog ' + verifyCodeGifPath)
        verify = input("请输入图中的验证码:")

        data = {
            'expire': expire.group(1),
            'referer': 'http%3A%2F%2Fwww.jikexueyuan.com%2F',
            'uname': XXX,
            'password': XXX,
            'verify': verify,
        }
        post_data = urllib.parse.urlencode(data)

        request = urllib.request.Request(passport_url,post_data)
        # 给一个useragent,防止被认为是爬虫程序
        request.add_header('User-Agent', 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.125 Safari/537.36')
        # 发送登录请求
        request = urllib.request.urlopen(request)
        request.close()
        print('登陆完成')

    # courseUrl: 课程地址首页,例如:http://www.jikexueyuan.com/course/989.html
    def download(self, courseUrl):
        # 获取课程名称
        request = urllib.request.urlopen(courseUrl)
        coursePageHtml = request.read()
        request.close()
        courseName = re.search(r'(?s)<title>(.*?)-',coursePageHtml).group(1)
        # 课程数量
        courseCount = int(re.search(r'(?s)class="timebox"><span>(.*?)课时',coursePageHtml).group(1))
        # 存储视频的文件夹路径
        folderPath = self.folderPath + courseName + '/'
        # 判断文件夹是否存在
        folderExists = os.path.exists(folderPath)
        if not folderExists:
            os.mkdir(folderPath)

        print('课程名:' + courseName + ' 课程数量:' + str(courseCount))
        # 课程的编号,构建课程的页面地址
        i = 0
        while i < courseCount:
            i += 1
            pageUrl = courseUrl.split('.html')[0] + '_' + str(i) + '.html?ss=1'
            # 本节课程的html代码
            request = urllib.request.urlopen(pageUrl)
            pageHtml = request.read()
            request.close()
            # 本节课程的名称
            name = re.search(r'(?s)<title>(.*?)-',pageHtml).group(1)
            # 本节课程的视频地址
            videoUrl = re.search(r'<source src="(.*?)"',pageHtml)
            # 有的页面写的课时比实际课时多,会匹配不到视频地址
            if videoUrl == None:
                continue
            else:
                videoUrl = videoUrl.group(1)
            print('正在下载' + name + '...')
            # 存储视频的Path: 总路径/课程名/每一节的名称
            urllib.urlretrieve(videoUrl,folderPath + str(i) + name + '.mp4',self.cbk)
        print('下载完成')

    # 从网上下载的可以显示下载进度的函数
    # \\b是我加的,产生了很奇特的显示效果,还行
    def cbk(self,a, b, c):
        per = 100.0*a*b/c
        if per > 100:
            per = 100
        print('%.2f%%\\b\\b\\b\\b\\b\\b' % per)

    def cbk(self,a,b,c):
        per = 100.0 * a * b /c
        if per >100:
            per = 100
        print('%.2f%%\\b\\b\\b\\b\\b\\b' % per)

# 建立下载对象,参数是即将下载的这些视频放的目录,程序会根据课程名在这个文件夹里面再建文件夹
down = DownCourse('/home/geekgao/视频/SpringMVC/')
down.login()

# 下载一个页面中的所有课程
request = urllib.request.urlopen('http://www.jikexueyuan.com/course/springmvc/')
html = request.read()
request.close()
courseUrls = re.findall(r'class="lesson-info-h2"><a href="(.*?)"',html)

for courseUrl in courseUrls:
    down.download(courseUrl)

最后编辑于：2017.12.04 09:42:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

Python爬虫爬取极客学院

推荐阅读更多精彩内容