20200523古有曹子建七步成诗,今有DataCamp 8步成为数据科学家
这是国外一个非常厉害的数据科学学习平台DataCamp数据科学大牛Karlijn Willems写的一篇图文《8步成为数据科学家》。
我看到之后感觉,哇,大牛就是大牛。
8步,就8步,而且是8 easy 步。
当然,这里说的8步,不是说你用8天或者8周就可以完成,而是告诉你一个学习路径。只要你按照这个学习路径去学习,坚持学习,一定可以攀登到数据科学家的高峰的。
首先,什么是大数据科学家?
这个问题让我想起了,大学的系主任在给我们上的第一堂课时说的:
什么是地球物理学系?
地球物理学系就是半个地质系、半个物理系、半个计算机系、半个数学系毕业的。说白了就是一个跨学科的专业。
同样,数据科学家也是一个跨学科人才,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。需要掌握的知识有数学统计,编程能力,机器学习,研究能力等。
最主要的是什么呢?是将以上这些技能全部综合运用起来,以解决实际的问题,促进业务的发展,提升生产力,为社会创造价值的。
从上图来看,数据科学家大部分是本科或者硕士学历(本科37%,硕士31%),当然,这个数据是几年之前的。从调查数据来看,有5%高中毕业的人也成为了数据科学家。这足以说明,只要你肯努力,即便是文凭很一般,也是可能成为顶级大牛的。更何况,对于很多人来说,无需成为数据科学家,只要会一些常规的数据分析方法与技能,就能找到一个合适的工作。
第1步:学好统计、数学和机器学习
数学和统计学是数据分析的最基础的内容,也是后续影响你发展路径的决定因素,一定要打好基础。但是机器学习这里只要了解个大概就可以了。
以下给出了一些学习的书目与资料,如果觉得很难的话,可以参考这篇文章的几本书:
第2步:编程
编程能力早就已经作为大学生的基本能力之一,甚至现在的少儿编程也火速蔓延。
选择一种数据分析的编程语言,例如开源软件的R , Python语言等,或者商业软件的SAS, SPSS等。
很多同学在学习编程语言的时候,经常是按照如下的路径:从安装到放弃……所以:
第3步:数据库
少量的数据可以使用Excel文件来存放,但是数据量大时就不行了。大部分公司的大部分数据都存放在数据库中,因此呢,数据库的操作你需要熟悉的,如关系数据库MySQL,非关系型数据库MongoDB等。
同样,也不要从安装到放弃啊:
第4步:学会数据清洗、可视化和报表制作
据统计,在大部分数据分析的工作中,有多达60%的时间都花在了数据清洗上了。所以数据清洗一定要选择高效的工具,如Python的pandas包、R语言的data.table和dply包、PowerQuery等工具。
而可视化可以用Python的matplotlib包、R的各种包、PowerBI等。
报表制作上,PPT技能是最基础的内容,PowerBI和Tableau等规模化报表工具,你值得拥有。
学习PowerBI内容,请关注本号,查看历史文章,干货满满。
第5步:提升到大数据级别
当你开始处理海量规模的数据时,绝大多数的数据科学家要解决的问题,都无法在单机上完成,需要用分布式处理大数据集,使用的工具有Hadoop和Spark等。
第6步:多操作、多实践,与数据科学家大牛多交流
实践是检验真理的唯一标准。你学习了那么多,一定要真正用在实践中区创造价值,哪怕是学习了别人的知识,自己再输出给其他人也行。
再就是遇到问题时,一定要请教大牛,其实他们都很乐于回答你的问题的。
第7步:实习、项目实战、或者找一份工作
即便是学习了之后操练一下,你可能也就是有个大概的认识。但是一旦有项目或者工作需求,那么你学习过程中的疏漏与不足全都会暴露出来,这时候别怕,一定要再查漏补缺,提升自己,你会发现自己进步非常快。
第8步:专业社区学习交流
数据分析的网站有:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers。
可以看这些数据科学大牛的博客:Hilary Mason, David Smith, Nate Silver, dj patil。
在这些专业社区,看看别人都是遇到什么样的问题,如何解决的,甚至你可以思考如何解决这些问题,去帮助别人,在社区内积攒口碑,你也会成为大牛的。