使用Python脚本拉取2014 CSDN博客之星投票情况

前言

  最近在自学Python,正好2014 CSDN博客之星投票搞得如火如荼,拿来练练手。

  • 环境:Win7 64位 Python 2.7;

  • 用到了正则表达式、函数、写文件、urllib2;

  • 没有用到线程;

  • 程序也不怎么规范,但终归是能够达到目的了,哈哈。

源码

# -*- coding: utf-8 -*-

import urllib2;
import re;
import os;
import thread;


def loadBlogSort(url):
    pageCount = getPageCount(url);
    print 'pageCount == ',pageCount;
    baseUrl = 'http://vote.blog.csdn.net/Blogstar2014/Selection?PageIndex=';
    urlSuffix = '#content';

    filepath = 'csdn_blog_star_vote.txt';
    if os.path.exists(filepath):
        os.remove(filepath);
    f = open(filepath,'w+');
    for pageIndex in range(1,int(pageCount)+1):
        contentUrl = baseUrl + str(pageIndex) + urlSuffix;
        print 'pageIndex == ',pageIndex, ' contentUrl == ',contentUrl;
        user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'
        headers = { 'User-Agent' : user_agent }
        request = urllib2.Request(contentUrl, headers = headers)
        response = urllib2.urlopen(request);
        result = response.read();
        # unicodeResult = result.decode("utf-8");
        # 名称
        # <div\sclass=\"star-con\"><span\sclass=\"star-name\"><a\shref=(.+?)\starget=\"_blank\"\stitle=(.+?)>(.+?)</a></span>
        names = re.findall('<div\sclass=\"star-con\"><span\sclass=\"star-name\"><a\shref=(.+?)\starget=\"_blank\"\stitle=(.+?)>(.+?)</a></span>',result,re.S);
        nameList = [];
        for name in names:
            # print '昵称:',name[2];
            nameList.append(name[ 2 ]);

        # 博客地址
        # <dt><a\shref=\"(.+?)\"\s\starget="_blank"><img\ssrc=(.+?)></a></dt>
        blogUrlList = [];
        detailUrls = re.findall('<dt><a\shref=\"(.+?)\"\s\starget="_blank"><img\ssrc=(.+?)></a></dt>',result,re.S);
        for detailUrl in detailUrls:
            blogUrlList.append(getBlogUrl(detailUrl[0]));

        # 得票
        # <p><b>得票:</b><span\sid=(.+?)>(.+?)</span></p>
        votes = re.findall('<p><b>(.+?)</b><span\sid=(.+?)>(.+?)</span></p>',result,re.S);
        voteList = [];
        for vote in votes:
            # print ' 得票:',str(vote[2]);
            voteList.append(vote[ 2 ]);
        # 博文浏览量、博文数、评论数
        # <div\sclass="star-post1"><span>(.+?)</span><span>(.+?)</span><span>(.+?)</span></div>
        infos = re.findall('<div\sclass="star-post1"><span>(.+?)</span><span>(.+?)</span><span>(.+?)</span></div>',result,re.S);
        infoIndex = 0;
        blankSize = 20;
        for info in infos:
            user = '昵称:'+nameList[infoIndex] + ( blankSize - len(nameList[infoIndex]) )*' '+'得票:'+voteList[infoIndex] + ( blankSize - len(voteList[infoIndex]) )*' '+'博文浏览量: '+str(info[0]) + ( blankSize - len(str(info[0])) )*' '+'博文数:'+str(info[1]) + ( blankSize - len(str(info[1])) )*' '+'评论数:'+str(info[2])+ + ( blankSize - len(str(info[2])) )*' '+'博客地址:' + blogUrlList[infoIndex]+ '\n'
            # print user;
            f.write(user);
            infoIndex += 1;

    f.close();
    print '写文件完毕!';

# 得到博客链接
def getBlogUrl(detailUrl):
    url = 'http://vote.blog.csdn.net/' + detailUrl;
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'
    headers = { 'User-Agent' : user_agent }
    request = urllib2.Request(url, headers = headers)
    response = urllib2.urlopen(request);
    result = response.read();
    blogUrls = re.findall('<p>(.+?)<a\shref=\"(.+?)\"\s\starget="_blank">(.+?)</a></p>',result,re.S);
    print 'blogUrl == ',url + '\n' + str(blogUrls[0][1]);
    return str(blogUrls[0][1]);

# 得到总页码数
def getPageCount(url):
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'
    headers = { 'User-Agent' : user_agent }
    request = urllib2.Request(url, headers = headers)
    response = urllib2.urlopen(request);
    result = response.read();
    pageCount = re.findall('<div\sid=\"PageCount\"\sstyle=\"\sdisplay:none\">(.+?)</div>',result,re.S);
    return pageCount[0];

url = 'http://vote.blog.csdn.net/Blogstar2014/Selection?PageIndex=1#content';
loadBlogSort(url);

效果

2014_csdn_blog_star_vote
2014_csdn_blog_star_vote
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,275评论 25 707
  • 小雪时节刚过 祖国多地纷纷飘起了雪花 进入“童话”模式 银装下的冬天就这样悄悄来临了 寒风吹过脸庞的感觉好极了有木...
    益肤护肤阅读 181评论 0 0
  • 中秋佳节,是亲朋欢聚、赏月饮酒、赋诗作词的好日子。自古以来,吟咏这一轮圆月的诗句最多,检阅唐诗宋词元曲,俯拾皆是。...
    凤公子的虚度时光阅读 303评论 1 0
  • 捷径二:【心平气和,不要争吵】 最近和妈妈相处比以前好多了。 之前总是动不动就吵架,原因大小都有。 大到出境旅游前...
    6da04c2370c7阅读 283评论 0 1
  • 也许有天你发现,你爱的人,也许不是那么爱你,你除了爱你,还可以爱上别人
    a15e658d14ba阅读 146评论 0 0