招聘数据科学家指南

本文简要概述了新兴数据科学家类型及其独特的技能组合,以及希望雇佣他们的第一批数据科学家或建立数据科学团队的人力资源专业人员和分析经理的指南。其中包括每种类型技能的概述以及可以要求评估候选人的具体问题。

数据科学是一个新兴领域,角色和资格目前尚不明确。考虑到该领域的晦涩以及寻求聘请数据科学家或数据科学家团队的公司可能缺乏分析专业知识,建立分析团队或雇用公司的第一位数据科学家的任务可能令人生畏。但是,通过简要概述数据科学家类型和评估每种类型的示例问题,招聘经理可以为招聘人员提供更具针对性的个人资料,并更好地评估候选人可能需要的技能来填补这一角色。

数据科学家通常拥有3个主要领域的技能:数学/统计/机器学习,编码/软件工程以及他们寻求就业的行业专业知识(见下图)。大多数成熟的数据科学家在这3个领域中的2个领域拥有强大的技能,产生软件/数学人员(通常在科技公司或生产角色中找到),数学/领域人员(更多的是传统统计学家或科学研究人员)或软件/ domain(不太常见,但通常涉及数据管道和商业智能角色)。在所有3个领域都具有强大技能的人都是所谓的“独角兽”,他们通常是在所有3个领域发展专业知识的职业生涯晚期或顾问。除了这些技能,
image.png

聘请合适的候选人担任他/她将在公司内部扮演的角色可以通zhaop熟数据科学家类型中的一种来简化,随后的职位描述/面试问题可以针对该类型的角色进行定制。通过将2或3位数据科学家与免费技能配对,可以建立一个有效的数据科学团队,而无需大量预算。

image.png

数学/软件优势(类型1)在科技公司或新算法或数据框架可以生产的位置很常见,而不考虑行业的细微差别,数据类型或行业规则(例如教育,医疗保健,金融,生物技术/制药)。这些人可能会创建一个新版本的PageRank,为公司开发一个新的应用程序,或者生成新的算法和BI结果。技能包括多种编程语言(Python,R,甚至可能是C ++或Java),大数据框架(Hadoop,Spark,NoSQL ......),算法设计和软件开发(计算机科学课程或学位,敏捷/瀑布软件生命周期)的混合,以及一些数学或机器学习的高级培训(可能是该领域的学位)。教育的角度来看,

评估类型1候选者的问题可能涉及分布式计算框架(MapReduce用于算法设计的步骤,知道哪些算法在分布式计算中运行良好),数据库设计(关系与非关系与Neo4j,实时捕获和部署)模型,自动表更新),分析管道的创建(特别是在Python中),以及机器学习知识的深度(用于创建随机森林模型的数学概念,随机森林与增强回归的数学差异和实施考虑因素,了解深度学习框架之间的差异......)。

数学/领域数据科学家(类型2)通常在教育,生物技术/基因组学,医疗保健,保险等专业领域内工作......行业受到监管,生物学,心理学,精算科学等知识可以帮助构建相关问题并为分析提供信息公司内部的做法,特别是在联邦指导方针和最佳研究实践方面。大型公司也发现了第2类数据科学家,以协助营销,销售,财务和其他与业务相关的问题。技能包括深入的数学和机器学习专业知识(通常是研究生水平的知识/教育),研究设计/研究实践(抽样实践,权力分析,因变量类型,科学出版物......),领域专业知识(该领域或行业的学位)经验),以及该行业所使用的软件的实质性知识(SAS,R,Python,Matlab ......)。这些人最有可能拥有博士学位(可能是学术界的职业转换者)或拥有大量已发表研究的数学/统计学硕士学位。

评估2型候选人的一些问题将是特定领域的(例如基因组学问题/基因组学公司的PLINK编码练习),其他问题将集中在研究设计(偏见,A / B测试或控制/实验设计,动力分析和过度动力样本的后果...),统计分析(贝叶斯概率,广义线性建模和因变量,时间序列预测)和机器学习(解释不同集合技术的数学方式,就像你对小学生一样,解释惩罚回归模型,当它们有用时,解释样本大小如何影响算法选择和性能......)。

软件/域人员(类型3)在数据科学家在专业领域内推动数据收集,数据管理和应用程序开发的位置非常有用。他们通常拥有自己的行业经验,可能拥有或可能没有与该行业相关的学位,具有丰富的编码专业知识。在商业领域,Type 3人往往具有技术背景和MBA,并且通常最终领导技术团队或管理分析部门。技能包括数据库设计/数据捕获(SQL,Hadoop,设计原则),软件开发(scrum,敏捷/瀑布生命周期),编程(SAS,Python,Java,C ++通用)和领域知识(生物技术法规,开发/文档)工业要求)。

评估类型3候选者的问题可能包括数据库设计原则(外键,可执行文件......),行业特定问题(例如,将PLINK与基因组学中的其余管道集成或与本体结构一起使用),以及MapReduce /分布式计算系统(与应用程序设计或管道瓶颈相关......)。

所有候选人都应该表现出分析数据并在没有分析背景的情况下向其他分析人员或领导者展示结果的能力和舒适度,因为这是数据科学家的基本功能,而数据科学候选人应该在软件或数学方面具有足够的知识,以便与之合作那些赞美他们特定技能的人,因为现在大多数公司都组建了一支具有不同专业知识的小型分析团队,以涵盖所有数据科学。

作为最后的思想和资源指南,我提供了一个问题库,其中包括我最喜欢的几个评估潜在数据科学家(涵盖各种数据科学家类型)的问题:

  1. 解释随机森林的数学基础并推动回归,比较和对比他们的公式以及计算实施问题。

  2. 问一些与条件概率和贝叶斯定理有关的东西。

  3. 讨论您阅读的最后一本机器学习/计算机科学论文,以及如何向您五岁的侄女解释它。

  4. 给出一个假设的数据集(与您公司以前的项目相关),并询问可能的分析方法(或者给他们提供数据和几天的分析)。

  5. 询问MapReduce或相关的计算框架(R,Python,Hadoop ......),他们可能会在这个位置使用它们。

  6. 解释一个p值。

  7. 解释多样性如何减少集合方法中的误差和偏差。

  8. 指出并解释3种不同的降维策略。

  9. 如果将在该位置使用网络分析:解释PageRank背后的数学运算以及一般情况下线性代数如何用于图形/网络问题。

  10. 您如何使用这个房间里的物品向幼儿园儿童解释(机器学习算法或软件设计)?

  11. 详细解释拓扑/几何对统计和机器学习领域的贡献。

  12. 包括批判性思维/ IQ有关的项目或两个(特别是来自这个问题银行:HTTP :// WWW iflscience 的COM / / 证明- - 智慧- - - 世界- 最短- 智商- 测试)。

  13. 解释您对软件开发生命周期的偏好,并举例说明您从以前的职位中学到的最佳实践。

  14. 您将如何设置A / B测试?您如何控制误差?为什么测试需要一个控制组?

  15. 询问行业特定的内容(法规,数据类型,领域知识)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容