抓取拉勾上的职位要求做处理(python小白登天日记)

流程很清晰:
1.分析拉勾页面
2.发现拉勾下面招聘页面是用Ajax写的,抓包试了以下很简单:

招聘块

3.通过代码获取到json
4.通过json里面的一个值positionId拼接得出详情页面的网址
5.通过分析详情页的HTML获取到职位要求
6.将所有的职业要求添加到一个字符串当中,并将无用的词语去掉(比如'职位要求'这四个字这样的)
7.使用jieba分析出高频词汇
8.最后制作出职业技能画像

中间遇到了很多问题,比如PC端的网页不好分析,字符串不在一个标签当中,而且拉勾的headers很迷,然后我抓取详情页面就用的手机端的抓取的,结果刚出了一个错误,我用了一个try之后,我的IP就被禁掉了

IP被禁

没办法啊,只能去获取IP代理去了,代码先写到这儿

 # -*- coding: UTF-8 -*-
import requests,re,json
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)#去掉SSL警告



def get_detail_page(detail_url):
    mobile_headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36     (KHTML, like Gecko) Chrome/59.0.3071.115 Mobile Safari/537.36',
       'Cookie': 'JSESSIONID=15A9FE2A6A2CC09A2FB61021BF8E8086; '
                  'user_trace_token=20170501124201-1adf364d88864075b61dde9bdd5871ea; '
                  'LGUID=20170501124202-850be946-2e28-11e7-b43c-5254005c3644; '
                  'index_location_city=%E5%8C%97%E4%BA%AC; TG-TRACK-CODE=index_search;'
                 ' SEARCH_ID=0a596428cb014d3bab7284f879e214f0;     Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493613734;'
                  ' Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493622592;'
                  ' LGRID=20170501150939-247d4c29-2e3d-11e7-8a78-525400f775ce;'
                  ' _ga=GA1.2.1933438823.1493613734'
    }
    detail_response = requests.get(detail_url,headers=mobile_headers,verify=False)
    detail_soup = BeautifulSoup(detail_response.content,'html.parser')
    detail_page_dd = detail_soup.find('div',attrs={'class': 'content'})
    try:
        return detail_page_dd.text
    except Exception,e:
        print "这页没找到对应标签"
    finally:
        pass

def get_all_text(data):
    all_text = ''
for i in data['content']['positionResult']['result']:
    #解析json,获取详情页的拼接地址
    detail_url_pinjie = 'https://m.lagou.com/jobs/'
    detail_url = detail_url_pinjie + str(i['positionId']) + '.html'
    print detail_url
    all_text += get_detail_page(detail_url)
    print all_text
    return all_text

def get_page():
    url = 'https://www.lagou.com/jobs/positionAjax.json'
    for pn in range(1,30):
        post_data = {
            'city': '北京',
            'needAddtionalResult': 'false',
            'first': 'true',
            'pn': str(pn),
           'kd': 'python'
        }

        headers = {
            'Host': 'www.lagou.com',
            'Referer': 'https://www.lagou.com/jobs/list_python爬虫',
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Mobile Safari/537.36',
            'Cookie': 'JSESSIONID=15A9FE2A6A2CC09A2FB61021BF8E8086; '
                  'user_trace_token=20170501124201-1adf364d88864075b61dde9bdd5871ea; '
                  'LGUID=20170501124202-850be946-2e28-11e7-b43c-5254005c3644; '
                  'index_location_city=%E5%8C%97%E4%BA%AC; TG-TRACK-CODE=index_search;'
                  ' SEARCH_ID=0a596428cb014d3bab7284f879e214f0; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493613734;'
                  ' Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493622592;'
                  ' LGRID=20170501150939-247d4c29-2e3d-11e7-8a78-525400f775ce;'
                  ' _ga=GA1.2.1933438823.1493613734'
    }

    response = requests.post(url=url, verify=False, params=post_data, headers=headers)
    data = json.loads(response.content)
    print response.content
    get_all_text(data)
get_page()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,384评论 25 707
  • 知己知彼,方可百战不殆。在学习技术的时候我们往往面临太多选择而不知所措,可能是各个方面都有涉猎,对某个领域没有深入...
    SplendorZhang阅读 7,322评论 18 125
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,051评论 45 523
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,580评论 18 139
  • 以前看过一本书,《再见,总有一天》,后来又去看了同名电影,西岛秀俊和中川美穗演的,很喜欢里面的一句话: 人们必须随...
    等风来94阅读 231评论 0 1