你真知道自己加了多少班吗？来来来，用Python分析一下考勤数据就知道了

前段时间给同事做Python爬虫技术分享，为了分享的效果以及听众的兴趣，写了一个爬取考勤数据的小爬虫。内容比较简单，以下做一个梳理：

一、问题分析

先梳理下查询考勤的流程：

登录公司内网的系统
切换到考勤查询页面
根据年份、月份查询对于的考勤数据即可

分析以上流程，主要解决两个核心问题即可：a. 账号登录 b. 找到考勤数据查询的接口

二、解决登录问题

公司的考勤数据、人力系统、会议室等都在同一个系统里面，由于之前已经用Selenium写过抢会议室的脚本，所以登录、验证码等问题算是已经解决了。
但是多想一步，要是每次爬个考勤、调试都要祭出Selenium也有点麻烦的，所以...能不能再优化下呢？
...
当然是有的！

既然可以用Selenium登录，就能得到登录后的cookie。理论上说，只要在cookie的过期时间内都是可以实现免登录的。😄
所以需要实现的工作是：
1、用Selenium模拟登录，登录成功后将cookie保存到本地；
2、抛弃Selenium，用Requests库，带上前面的cookie访问网站即可。然后就能随心所欲爬取数据了。

说干就干，以下是获取登录状态cookie的实现代码：

import time, os, json, requests,sqlite3
from selenium import webdriver
from time import sleep
from lib.mtHelper import MtHelper #自己封装的关于验证码识别、登录等函数
from requests.cookies import RequestsCookieJar

#用selenium登录系统，保存cookie到本地json文件。
def login_savecookie(user, password):
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.implicitly_wait(5)
    mtHelper = MtHelper(driver)
    driver.get('http://****.com')
    mtHelper.login_auoto(user, password, 15)#之前封装过的登录函数，最多尝试15次验证码识别
    sleep(1)
    dict_cookie = driver.get_cookies()#登录成功后获取当前的cookie
    json_cookie = json.dumps(dict_cookie)
    with open(path + "\cookies.json", "w+") as f:
        f.write(json_cookie)
    driver.quit()

#读取本地json文件获取cookie，用于requests
def parse_cookie():
    jar = RequestsCookieJar()
    with open(path + "\cookies.json", "r") as f:
        json_cookies = json.load(f)
    for cookie in json_cookies:
        jar.set(cookie['name'], cookie['value'])
    return jar

所以从理论上说，在cookie过期时间以内，只用执行一次Selenium登录操作即可。之后的操作直接读取本地的cookie数据，携带它进行request请求即可。这样能大大减少调试、运行的成本。

三、考勤数据查询接口

按照以往的经验，凡是先按F12，观察一下请求的内容再说。
先进入考勤查询系统，调出控制台后，用鼠标点击了一下2018年3月，立马能看到以下请求（没有截图，就手敲了一遍，实际数据做过隐私处理）：

#post请求地址：
http://****/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=2018-3&EMPLID=111111
#参数：
MONTHCD：2018-3
EMPLID：111111


#返回值(截取部分)，Json格式：
"{"code":"success","list_data":
[{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"19:29:31","ATT_DATE":"2018-03-01","ATT_BGN_TIME":"08:58:40","EMPLID":"111111","DAY_OFWEEK":"星期四","ATT_RESULT":"无异常"},
{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"18:57:48","ATT_DATE":"2018-03-02","ATT_BGN_TIME":"09:07:43","EMPLID":"111111","DAY_OFWEEK":"星期五","ATT_RESULT":"无异常"}]}"

根据以上内容不难推测，要想获取考勤数据，只需找到该post请求的参数规律即可。至于返回值，明显是按照工作日排序的，只需解析该Json即可得到想要的数据。

请求参数分析：
MONTHCD不用说，肯定是指查询考勤的年月份；至于EMPLID，虽然不知道具体是什么，但该变量名明显是类似员工工号的东西，应该是唯一的。再多尝试了几次，果不其然，它是不变的。
搞定！！！

动手来实现它吧：

#获取某月的考勤数据
#month为需要获取的月份，employeeID为员工工号，jar为cookie数据。也就是上例中从json文件中获取的cookie信息
def request_and_get_json(month = "2018-3", employeeID = "111111", jar = None):
    url = "http://***/EMPLOYEE/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=%s&EMPLID=%s" % (month, employeeID)
    print u"正在获取%s的数据!"%month
    response = requests.get(url, cookies = jar)
    text = response.text
    js = json.dumps(text,encoding='utf-8',ensure_ascii=False)
    js = json.loads(js)
    return js

三、数据存储

前面已经找到查询接口的规律了，所以用个循环遍历就能获取任意时间段的考勤数据了。但是仅停留于此是不够的，接下来要考虑下数据存储，只有存储为合理的数据结构后才方便后面的数据分析。

数据存储的方式很多，比如针对少量数据可以存为本地Json、txt、Excel等文件，数据量大也可以考虑数据库。
此处的考勤数据不多，不到1000条。为了便于数据的筛选，以及减少环境搭建成本，采用sqlite3存储。
先使用pip install sqlite3命令安装sqlite3库，接下来就是实现：

#保存数据到数据库
#sql格式："insert into info(date, week, emplid, beginTime, endTime, comment, result) values ('%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (date, week, emplid, beginTime, endTime, comment, result)
def save_to_db(sql):
    conn = sqlite3.connect(path + '\db\clockData.db')
    cursor = conn.cursor()
    cursor.execute('CREATE TABLE IF NOT EXISTS info (date text(20) primary key, week text(20), emplid text(20), beginTime text(20), endTime text(20), comment text(20), result text(20))')
    cursor.execute(sql)
    cursor.close()
    conn.commit()
    conn.close()

至此，将以上部分串联起来，就能爬取考勤数据了！
下面就看看爬取的成果：

爬取下来的考勤数据

四、数据分析

当然，数据分析这个范畴实在是太大了，在此只做个简单的数据统计（常用的sql查询命令），用于娱乐😜，顺便模仿一波网易云的情怀文案：

考勤数据分析

不说了，我要找老板加薪去！😭😭😭

最后编辑于：2018.07.15 20:13:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342