本文通过查询相关资料,明确了市场上数据科学的相关职位,继而确定了搜索职位为:数据分析师、算法工程师、数据挖掘、数据运营、数据产品经理、大数据工程师等。通过分析求职者的需求,确定了爬虫的关键词为工作经验、学历要求、公司发展阶段、公司规模、薪资待遇、岗位职责、任职要求等。采用Python软件对拉钩网的数据进行了爬取,接着将爬取的数据进行去重等清洗工作,得到可供直接分析的数据;最后通过Python和Excel等工具对数据进行分析和探索,最终得到该分析报告,以期为求职者提供高价值的参考。
1 总体指标分析
1.1学历要求
学历要求包括本科、硕士、博士、大专和不限这五类,考虑到数据行业的入门门槛较高的特点,大专以下学历能够从事相关工作属于小概率事件,因此将不限归于大专这一档。最终分析得出招聘单位对求职者的学历要求情况如下图:
由图1可见,招聘岗位要求学历为本科的占比最高,达到3/4;其次为大专,占比近20%;而要求求职者为硕士及以上学历的企业占比较低,仅为6%。对原始数据进一步分析发现:学历要求为硕士及以上的职位则主要集中在算法工程师、数据挖掘等对数学要求比较高的岗位。
1.2工作经验
原始数据中存在“不限”和“1年以下”两类工作经验,从含义上讲,“不限”显然是对招聘单位对求职者的经验不作要求,因此将两者合并为 “一年以下”工作经验。最终分析得出招聘单位对求职者的工作经验要求情况如下图:
由图2可知,1)要求求职者具备3-5年工作经验的岗位最多,占比达到46%;2)要求工作经验达为1-3年和5-10年的岗位分居2、3位,占比分别为28%和13%;3)对于具备1年以下工作经验的岗位也达到12.5%。可见,求职市场对具备一定工作经验,能够独立胜任工作或者具备带团队工作的人才非常需要,而对1年以下工作经验的需求,也表明该行业对人才具有一定的缺口。
1.3薪资分布
由于网站上同一岗位的薪资并不是一个确定值,而是一个范围值,为了便于进行数学上的分析,取薪资范围的上限与下限的均值作为该岗位的薪资待遇情况,同时将所得的薪资分为[0k,5k)、[5k,10k)、10k,15k)、[15k,20k)、[20k,+∞)这五个档位。最终分析得出招聘单位对求职者提供的薪资情况如下图:
由图3可知,平均月薪位于[10k,15k)范围的占比最大,超过30%;而平均月薪位于[15k,20k)范围内以及[5k,10k)范围内的占比也超过0%;值得注意的是月薪在[20k,+∞)范围内占比也达到了17%;而[0k,5k)的占比极少。
从领取的薪水与工作能力相关的角度来看,招聘岗位除了需要对业务熟练的有经验员工,也非常渴望能够带领团队的骨干型人才(薪水对应着[20k,+∞)范围)。
1.4企业规模
通过对原始数据的企业规模分析,得出招聘单位的企业规模情况如下图:
从公司规模来看,职工人数在150-550人数的公司数量最多,达到220家,而15人到500人范围内的公司占比超过80%,可见招聘企业主要以中小型企业为主。
1.5企业发展阶段
通过分析原始数据的企业发展阶段,得出招聘单位的企业发展规模情况如下图:
从公司发展阶段来看,成长型企业和初创型企业的占比接近90%,而成熟型企业数量只占10%,可见新型企业是数据科学相关职位招聘主力军。
1.6所属行业
很多企业的所属行业包含多个,并且很多行业指代不清(比如移动互联网行业),应对方式如下:1)包含多个行业的情况,认为第一个行业是其主要行业,取第一行业为其所属行业;2)对于第一个行业指代不明的情况(例如“移动互联网”),采用第二行业为其行业所属。通过分析得出招聘单位所属行业情况如下图示:
可见,数据相关职位需求最大的行业是电子商务、数据服务、金融等三个行业,其占比超过50%,同时需求量最大的前四个行业占比达到60%。
1.7结论
通过对拉勾网成都市数据相关岗位的分析,可以得出:
1)本科和大专学历能够满足市场上绝大多数岗位要求,要求学历为本科和大专的占比分别为70%和20%;
2)招聘岗位比较看重求职者工作经验:要求求职者具备3-5年和1-3年工作经验的岗位达到85%;但是对1年以下工作经验的人员也有一定需求,占比达到12.5%;
3)总体薪资待遇偏高:主要集中在[5k,10k)、[10k,15k)、[15k,20k)这三个区间范围内,占比达到80%;而[20k,+∞)范围的占比也能达到17.6%;
4)招聘企业主要以中小企业为主,员工人数为15-500人的公司占比达到80%;
5)绝大多数公司为成长型和初创型企业,占比达到90%:
6)从企业所处行业来看,电子商务、数据服务、金融是需求量最大的行业,占比超过50%。
2 数据探索
求职者比较关心职位要求的工作经验、学历要求和薪资待遇方面的问题,那么从统计学的角度来看,企业发展阶段和公司规模与这些因素是否具备相关性?如果具备,具体是怎样的关系?
2.1 相关性检验
很多情况下,采用参数检验的方法进行统计量的推断,但是本课题下,由于信息太少等原因,无法对总体分布形态做简单假定,因此此处采用非参数检验的方法进行相关性探讨;同时,考虑到我们分析变量为多项分类型变量,因此考虑采用卡方检验的方式进行相关性检验,其目的是通过对样本的分析,推断其总体分布是否与理论分布相吻合,从而判断两个或多个变量之间的关联性。
其基本判断过程如下:
1)假设:H0,理论次数与实际次数相符,即是卡方值χ2为0;
显著水平确定:设定该犯错误概率(即显著水平)为0.05;
计算期望值:
根据样本,采用极大似然估计计算出两两变量的期望值,并通过双向表的形式列出,双向表内部表格直接列出。
检验计算:
计算出两类变量的自由度n,并计算自由度为n,显著水平为0.05条件下的临界卡方值;通过双向表列出样本的实际次数f0。
计算卡方值:
并比较,计算卡方值与临界卡方值,如果卡方值小于临界值,则表明这两类变量具备统计学意义上的相关性。此时可进行进一步的规律分析。
2.2 企业发展阶段探索
本节讨论企业发展阶段与学历要求、工作经验和薪资待遇等因素间的相关性,并提炼出基本规律,以指导求职者。
2.2.1 学历要求探索
1)相关性检验:
假设:H0:理论次数与实际次数相符,即是卡方值χ2为0;
显著水平确定:按照惯例,设定该犯错误概率(即显著水平)为0.05;
计算期望值:
期望值采用极大似然估计进行计算,最后达到如下期望值fe:
检验计算:
本问题中企业的发展阶段分为三类,而工作经验分为四类,所以自由度为6;样本实际次数f0如下图所示:
计算卡方值:
通过查表知道,自由度为6,显著水平为0.05的临界卡方值为12.59,显然计算卡方值小于临界卡方值,所以其公司发展阶段与工作经验具备统计学意义上的相关性。
2)学历要求规律分析
由图7知,成长型企业招聘总人数是所以类型企业中最多,同时不同学历的需求量也是最大;由图8可知,1)不同发展阶段企业对本科学历和大专学历的要求均非常高;总占比超过90%;且随着企业的不断发展,对本科学历需求比例递增,大专学历需求比例递减;2)初创型企业和成长型企业对硕士及博士学位有一定需求,而成熟型企业需求极少;
2.2.2工作经验探索
通过卡方检验,企业发展阶段与薪资待遇具有统计学意义上的关联性。因此对其进行如下分析:
由图9知,无论是对总人数的需求还是对不同经验人员的需求,成长型企业的需求量均是最多,初创型企业需求量其次;
由图10知:1)不同阶段企业对3-5年工作经验的需求比例最大,其次是1-3年工作经验,但是对两者的需求比例之和无差异,占比均为75%;2)成长型企业对3-5年工作经验人员需求比例很大,是1-3年工作经验需求比例的2倍,远超其他发展阶段企业;3)不同阶段企业对1年以下和5-10工作经验人员的需求比例相对稳定,并无大的差异。
2.2.3 薪资探索
通过卡方检验,企业发展阶段与薪资待遇具有统计学意义上的相关性。因此对其进行如下分析:
由图11知,无论从总需求量还是从各个经验阶段的需求量看,呈现规律:成长型>初创型>成熟型。由图12可知,1)初创型企业对[10k,15k)范围内的需求比例最高,为其他各个范围需求量的1.7倍余;2)成长型企业对[5k,20k)范围人才的需求比例最大,且呈现规律:[10k,15k) > [15k,20k) >[5k,10k);3)成熟型企业对各个薪资待遇范围的人才需求相对均衡;4)横向对比来看,成长型企业对[20k,+∞)范围的高端人才和[0k,5k)入门级别人员的需求比例明显少于其他阶段企业。
2.2.4 结论
1)本科和大专学历可以应付绝大多数的职位需求;
2)对工作经验小于1年的求职者的需求比例超过12%,因此依然有机会;
3)无论是在求职市场上的需求总人数,还是对不同学历、工作经验和薪资情况的需求人数来说,招聘数量均呈现如下规律:成长型企业>初创型企业>成熟型企业,因此选择进入企业的优先级别如下:成长型企业>初创型企业>成熟型企业。
4)从稀缺表明价值越大的角度来看,企业对不同类型人才的需求比例越高,表明该类人才在该企业越稀缺,因而其发展空间也会相对更大。基于此,得到更进一步的择业建议:
a.本科学历更应该去成熟型企业,大专学历更应该去初创型企业,硕士及以上学历者应该选择初创或成长型企业。
b.对于3-5年工作经验人员,应优先选择成长性企业;对于1-3年工作经验优先选择初创型企业;其余工作经验人员按照3)中方法进行选择;
c.薪资要求在[10k,15k)和[20k,+∞)范围的求职者,应优先选择初创型企业,而薪资要求在[15k,20k)范围的求职者,应优先考虑成长型企业和成熟型企业,其余薪资要求求职者按照3)中方法进行选择;
2.3公司规模探索
2.3.1 学历要求探索
通过卡方检验,公司规模与学历之间具备数学统计意义上的相关性。现对其进行进一步分析,结果如下图示:
从图13知,1)企业规模在15-500人范围内时,随着规模的扩大,其招聘人数不断增加,其中本科学历人数增多明显,大专学历需求人数基本不变;2)150-500人规模的企业对硕士学历的需求大于其他规模企业,但是需求量依然很少;3)500人以上规模企业对人才需求较少。
从图14来看,1)随着公司规模的扩大,对本科学历的需求比例逐渐增加,对大专学历的需求比例逐渐降低,其中,500-2000人规模的企业,本科需求比例最高,超过85%,大专需求比例最低,仅为8.5%;2)除少于15人规模的企业外,其余规模企业对本科及大专学历的需求超过90%,而对硕士及以上学历的需求极少,为6%左右;
2.3.2 工作经验探索
通过卡方检验,公司规模与工作经验具备统计学意义上的相关性。现对工作经验做如下分析:
由图15可知,1)企业规模小于500人时,随着企业规模的增大,其人员总需求量及不同工作经验人员的需求量均不断增加,其中150-500人规模的企业对人才的需求最大;2)不同规模企业对3-5年工作经验的求职者需求最为旺盛,其次是1-3年工作经验的求职者;3)500人以上的企业对人才需求量相对较少。
由图16知,1)规模小于500人的企业,对5-10年及1年以下工作经验人员的需求比例相对稳定,为25%;而对1-5年范围工作经验人员需求比例维持在75%;2)规模小于500人的企业,随着规模的扩大,对3-5年工作经验需求比例不断增加,对1-3年工作经验需求比例不断降低,150-500人规模的企业对3-5年工作经验的需求比例是1-3年工作经验的2.5倍;3)500-2000人规模企业对1年以下工作经验的需求比例极少;4)2000人以上规模企业对大专学历的需求最少,而对5-10年工作经验人员的需求最高。
2.3.3 薪资探索
通过卡方检验,公司发展规模与薪资待遇存在统计学意义上的相关性。进一步分析,得到如下结果:
由图17知,1)15到500人规模的企业,随着企业规模的增大,对人才需求量也越大,而500人以上企业对人才的需求相对较小;2)各类企业对薪资待遇位于[5k, 20k)范围的职位需求量最大,而大于20k的高端人才,需求量相对较小;
由图18知,1)规模大于15人的企业,对薪资待遇位于[5k, 20k)范围的职位需求最大,占比接近80%;2)15-50人规模的企业对[10k, 15k)范围的需求旺盛,占比超过40%,超过其他薪资范围比例的2倍;3)各类企业对高端人才的需求比较稳定,其占比为15%~20%;4)人数少于15人的企业,虽然总的需求数量较少,对[10k, +∞)范围内的人才需求比较旺盛,其占比超过80%,为所有企业之最。
2.3.4 结论
1)无论是在求职市场上的需求总人数,还是对不同学历、工作经验和薪资情况的需求人数来说,招聘数量均呈现如下规律:150-500人企业>50-150人企业>15-50人企业>500-2000人企业>2000人以上企业,若不考虑其他因素的情况下,求职者在选择企业时,其选择的优先级别应按照上述顺序;
2)随着企业规模的增大,对本科学历的需求比例不断增大,并且在15-500人范围内,企业规模越大,需求人数越多,因此,本科学历求职者的最优选择是150-500人规模的企业。虽然15-50人和50-150规模企业对本科学历的需求人数远多于500人以上规模企业,但是由于企业规模较小,处于发展初期,其抗风险能力可能较差,此时的选择需要求职者自行平衡风险和发展前景;
3)企业规模越大,对大专学历求职者的需求人数并没有发生明显变化,其需求比例反而下降,因此,对于大专学历求职者而言,选择规模较小的企业进行历练可能是一个比较好的选择;
4)对3-5年工作经验的求职者来说,由于不同规模企业的需求量和需求比例均是最高的,考虑上企业的平台和抗风险能力,最优选择是150-500人规模企业;
5)对于1-3年工作经验求职者,虽然随着企业规模的增加,其需求量有轻微增加,但是其需求的比例总体上是减少的,因此对于该类求职者而言,选择规模较小的企业进行历练或许是一个不错的选择。
6)对于5-10年工作经验求职者更多的应该考虑企业的发展空间,由于2000人以上企业对该类型人才的需求比例最大,因此2000人以上企业对于其是个不错的选择。
7)薪资期望在5k-20k范围的求职者,无论是需求量还是需求比例均是较高,因此求职时因更多的考虑发展空间,选择需求比例较高的规模企业或许是一个更好的选择。
2.4 企业规模与发展阶段探索
通过卡方检验发现,公司规模与公司发展阶段之间并不存在统计学意义上的相关性;
3 词云探索
通过以上分析,我们了解了成都市大数据行业的总体描述。但对于求职者而言,需要进一步了解企业招聘相关行业的岗位职责和任职要求。由于上述分析涉及到多个职位,这些职位招聘的岗位职责和任职要求并不相同,因此下文选取一个岗位(数据分析师)进行解读。
3.1 岗位职责词云分析
考虑到句子最核心的部分是名词和动词,前者表示了所要描述的对象,后者表示了对描述对象(名词)所要采取的行动,因此分别对岗位职责描述语句中的动词和名词进行词云分析。
主要过程如下:根据岗位职责的描述,通过抽取样本的方式进行自定义字典设计;通过Python jieba对爬取的岗位职责语句进行分词处理;在excel中进行分词的清洗;最后通过Python WordCloud 生成词云。最后得出的词云如下:
3.1.1 词云解读
1)名词出现频次较高的词语可以分为以下几类:(1)数据分析、数据挖掘、建模等,与分析方式相关的词语;(2)分析报告、报表、报告等,与展示方式相关的词汇;(3)策略、数据支持、商业价值、趋势等,与分析目的相关的词汇;(4)Spark、Hadoop等,与需求软件相关的词汇;
2)动词词云中出现频次较高的词语则包括:结合、理解、应用、参与、跟踪、优化、发现、管理等。
3.1.2 结论分析
我们可以有一个数据分析岗位的初略认识:结合对业务本身的理解,通过相关软件,对采集的数据进行分析和挖掘,采用报表、分析报告等形式,以达到发现运营和管理过程中的不足,挖掘出发现趋势,并给相关部门的决策行为提供数据支持。
3.2 任职要求词云分析
采用3.1中的分析思路和分析流程,得出任职要求的全部词性词云和名词词云:
3.2.1词云解读
1)词云中出现频次较高的词云分为:(1)相关专业、工作经验”、经验等,与经验、专业相关的词语;(2)数学、统计学等,与数学相关的词语;(3)SQL、Python、软件、Hadoop、Excel等,与软件相关的词汇;(4)熟悉、熟练使用、优先、能力、等其他词汇。
3.2.2结论解析
可以得出任职要求的初略结论:相关岗位普遍重视求职者的工作经验、相关专业等背景;要求求职者具备良好的数学基础和熟练的软件使用能力;良好的数据敏感性,较强的沟通能力、逻辑分析能力和学习能力等软技能能够帮你增分不少;相关职位表现出对某些特长的偏好,但是这需要不同岗位不同企业具体分析。
4 结束语
上文给出了成都市大数据相关岗位的整体情况描述和求职建议,但是求职者需要注意的是:
本文的思维角度是站在一个整体的角度去分析,得出的是一些共性的特点和总体趋势;而求职者面临的是具体的岗位和具体的公司,这些具体岗位和企业在共性的基础上,更多的是体现个性,因此本文实际上只是求职者思考的起点(了解职位的共性和趋势),还需要更多的去思考如何利用好该分析报告体现的共性和趋势,并根据自己的实际情况做好具体的选择。
从这一点出发,数据分析也是一样,得出的数据分析报告并不是分析问题的终点,而应该是起点,还需要去探索实际问题的个性,才能比较好的解决问题。