抓取拉勾上的职位要求做处理（python小白登天日记）

流程很清晰：
1.分析拉勾页面
2.发现拉勾下面招聘页面是用Ajax写的，抓包试了以下很简单：

招聘块

3.通过代码获取到json
4.通过json里面的一个值positionId拼接得出详情页面的网址
5.通过分析详情页的HTML获取到职位要求
6.将所有的职业要求添加到一个字符串当中，并将无用的词语去掉（比如'职位要求'这四个字这样的）
7.使用jieba分析出高频词汇
8.最后制作出职业技能画像

中间遇到了很多问题，比如PC端的网页不好分析，字符串不在一个标签当中，而且拉勾的headers很迷，然后我抓取详情页面就用的手机端的抓取的，结果刚出了一个错误，我用了一个try之后，我的IP就被禁掉了

IP被禁

没办法啊，只能去获取IP代理去了，代码先写到这儿

 # -*- coding: UTF-8 -*-
import requests,re,json
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)#去掉SSL警告



def get_detail_page(detail_url):
    mobile_headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36     (KHTML, like Gecko) Chrome/59.0.3071.115 Mobile Safari/537.36',
       'Cookie': 'JSESSIONID=15A9FE2A6A2CC09A2FB61021BF8E8086; '
                  'user_trace_token=20170501124201-1adf364d88864075b61dde9bdd5871ea; '
                  'LGUID=20170501124202-850be946-2e28-11e7-b43c-5254005c3644; '
                  'index_location_city=%E5%8C%97%E4%BA%AC; TG-TRACK-CODE=index_search;'
                 ' SEARCH_ID=0a596428cb014d3bab7284f879e214f0;     Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493613734;'
                  ' Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493622592;'
                  ' LGRID=20170501150939-247d4c29-2e3d-11e7-8a78-525400f775ce;'
                  ' _ga=GA1.2.1933438823.1493613734'
    }
    detail_response = requests.get(detail_url,headers=mobile_headers,verify=False)
    detail_soup = BeautifulSoup(detail_response.content,'html.parser')
    detail_page_dd = detail_soup.find('div',attrs={'class': 'content'})
    try:
        return detail_page_dd.text
    except Exception,e:
        print "这页没找到对应标签"
    finally:
        pass

def get_all_text(data):
    all_text = ''
for i in data['content']['positionResult']['result']:
    #解析json，获取详情页的拼接地址
    detail_url_pinjie = 'https://m.lagou.com/jobs/'
    detail_url = detail_url_pinjie + str(i['positionId']) + '.html'
    print detail_url
    all_text += get_detail_page(detail_url)
    print all_text
    return all_text

def get_page():
    url = 'https://www.lagou.com/jobs/positionAjax.json'
    for pn in range(1,30):
        post_data = {
            'city': '北京',
            'needAddtionalResult': 'false',
            'first': 'true',
            'pn': str(pn),
           'kd': 'python'
        }

        headers = {
            'Host': 'www.lagou.com',
            'Referer': 'https://www.lagou.com/jobs/list_python爬虫',
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Mobile Safari/537.36',
            'Cookie': 'JSESSIONID=15A9FE2A6A2CC09A2FB61021BF8E8086; '
                  'user_trace_token=20170501124201-1adf364d88864075b61dde9bdd5871ea; '
                  'LGUID=20170501124202-850be946-2e28-11e7-b43c-5254005c3644; '
                  'index_location_city=%E5%8C%97%E4%BA%AC; TG-TRACK-CODE=index_search;'
                  ' SEARCH_ID=0a596428cb014d3bab7284f879e214f0; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493613734;'
                  ' Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493622592;'
                  ' LGRID=20170501150939-247d4c29-2e3d-11e7-8a78-525400f775ce;'
                  ' _ga=GA1.2.1933438823.1493613734'
    }

    response = requests.post(url=url, verify=False, params=post_data, headers=headers)
    data = json.loads(response.content)
    print response.content
    get_all_text(data)
get_page()

最后编辑于：2017.12.09 01:28:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

抓取拉勾上的职位要求做处理（python小白登天日记）

推荐阅读更多精彩内容