1.按照招聘职位数量进行排序:
发现北京万向有限公司的数据异常高,去智联招聘网站上进行搜索:
点进该公司发布的一些职位,发现招聘要求属于笼统的概括且内容差异不大,
没有明确的职能区分;判定该公司走培训模式的概率很大,故作为异常值移除。
移除异常值后,招聘数量前10的公司:
2.进行招聘的公司中,股份制和民营的企业的职位较多,国企和事业单位发布的职位很少:
3.招聘职位较多的公司规模:100-499人和500-999人的企业
很大型的公司和很小型的公司需求都一般,可见很成熟的企业职位相对稳定,
需求不是太多;很小的公司刚起步,还没发展起来,职位也不会太多
4.各地区对于数据分析师的需求:
如热力图所示,北京地区的招求遥遥领先,其次是上海、广州,南京和杭州也紧随其后
5.除去不限学历的,对大专和本科学历的需求最普遍;
这应该是考虑了社会本身的学历输出以及公司招聘时的用人成本
6.对于工作经验的要求,除去空白的,大部分在1到3年,无经验也有一定占比,
数据分析师作为比较新兴的职位,目前的需求还是偏向初级岗位
7.细化了工资区间,在3500-6500工资的人群比较多
8.20人以下的公司给的薪资很高,1000到9999人的公司给的薪资次之;
由于这里的薪资数据是平均值,20人以下的公司人数较少,故无法平衡极端值;
而10000人以上的公司由于人数众多,极端值也可以被平衡掉。
9.国企和事业单位的平均薪资较高
10.一般来说,学历越高,工资越高,但这里没有考虑工作经验的因素
11.将岗位职责的要求复制粘贴到文本文档data-analysis.txt中,
打开jupyter notebook,新建一个python文件,输入以下代码:
filename = "data-analysis.txt"
with open(filename) as f:
mytext = f.read()
import jieba
mytext = " ".join(jieba.cut(mytext))
from wordcloud import WordCloud
wordcloud = WordCloud(font_path="simsun.ttf").generate(mytext)
%pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
根据词云分析的结果,数据分析师的主要任务就是对数据进行分析,同时对于专业有一定的要求,学历要求大专及以上