新手数据科学家的五大误区

翻译自《Top 5 Mistakes of Greenhorn Data Scientists》


您准备好最终成为一名数据科学家。您参加了Kaggle比赛,然后狂热的观看了Coursera上的课程,您已做好准备,但是现实生活中的数据科学家的工作将与您的期望大不相同。

本文章探讨了新手数据科学家的5个常见误区。该文章是与SébastienFoucaud博士共同完成,他在学术界和工业界负责指导和领你年轻数据科学家方面拥有超过20年的经验。这篇文章旨在帮助您更好地为现实生活中的数据科学工作做好准备。



1.成为kaggle generation

您参与了Kaggle挑战并练习了您的数据科学技能。您可以使用stacking decision tree和神经网络,这很好。但是说实话,现实生活汇总您将不会像kaggle里面的数据科学家那样做很多模型堆叠。请记住,作为一般规则,您将花费80%的时间预处理数据,并将20%的剩余时间用于构建模型。

但是参与kaggle也有一定的好处。kaggle里面的数据经常被彻底清洗,以便您可以花更多时间调整模型。但是在您的实际工作中很少出现这种情况,您必须使用不同的格式和命名约定来收集来自不同来源的数据。

你将使用80%的时间做艰苦的工作来练习进行数据预处理的技能。抓取图像或从API收集它们;收集来自Genius的歌词;准备解决特定问题所需的数据,然后将其提取到终端中并训练机器学习生命周期。精通数据预处理无疑会使您成为一名对您的公司产生直接影响的数据科学家。


2.神经网络可以解决一切问题

深度学习模型在计算机视觉或自然语言处理领域优于其他机器学习模型。但它们也有明显的缺点。


神经网络需要大量数据。在只有较少的样本时,使用决策树或逻辑回归模型通常会更好。神经网络也是一个黑盒子。众所周知,它们难以解释和解释。如果产品所有者或经理开始质疑模型的输出,则必须能够解释模型,而传统模型解释就更容易。


下图James Le的这篇精彩总结展示了很多很棒的统计学习模型中,学习它们并了解它们的优缺点,和不同场景下的应用规范。除非您在计算机视觉或自然语音识别的专业领域工作,否则最成功的模型很可能是传统的机器学习算法。您很快就会发现,最简单的模型,如Logistic回归,是最好的模型。


3.机器学习是一个产品


机器学习在过去十年中享受并遭受了巨大的炒作。太多的初创企业承诺机器学习能够解决任何存在的问题。


机器学习本身永远不应该是产品。机器学习是创建满足客户需求的产品的强大工具。如果客户想要从准确的项目建议中受益,机器学习可以提供帮助;如果客户需要准确识别图像中的对象,机器学习可以提供帮助;如果企业从向用户展示有价值的广告中获益,那么机器学习可以提供帮助。

作为数据科学家,您需要以客户的目标为主要目标。只有这样,您才能评估机器学习是否有帮助。

4.将相关性与因果关系混淆

大约90%的数据是在过去几年中生成的。随着大数据的出现,机器学习从业者可以获得大量数据。有了这么多要处理的数据,学习模型会发现随机相关性的可能性增加。


上图显示了美国小姐的年龄以及蒸汽,热蒸汽和热物体的谋杀总数。鉴于这些数据,学习算法将学习美国小姐的年龄影响某些物体的谋杀数量的模式,反之亦然。然而,两个数据点实际上是无关的,并且这两个变量对其他变量绝对没有预测能力。

在发现数据模式时,不要忘记应用您的领域知识。它可能是相关性还是因果关系?回答这些问题是从数据中获取结果的关键。

5.优化错误的指标

开发机器学习模型遵循敏捷的生命周期。首先,您定义想法和关键指标。其次,您将结果原型化。第三,在满足关键指标之前,您会不断改进。


在构建机器学习模型时,请记住进行人工错误分析。虽然这个过程繁琐且需要付出努力,但它可以帮助您在以下迭代中有效地改进模型。请参阅《Andrew Ng’s Deep Learning Specialization》里下面的文章,以获取有关改进模型的额外技巧。

22 nuggets of wisdom to structure your machine learning project

年轻数据科学家为公司提供巨大价值。他们是学习在线课程的新手,可以提供即时帮助。他们经常是自学成才,因为很少有大学提供数据科学学位,因此表现出巨大的责任心和好奇心。他们对自己选择的领域充满热情,并渴望了解更多信息。但是要小心上述提到的会影响到第一份数据科学工作成败的误区


关键建议:

练习数据管理

研究不同模型的优缺点

保持模型尽可能简单

检查你的结论&因果关系、相关性

优化最有希望的指标

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容