感谢“凡人求索”给大家提供的这个机会,可以共同来学习数据分析、数据挖掘。因为跟的导师不是数据挖掘方向,但是想明年秋招找数据挖掘算法相关的工作,所以2018就是一边忙导师方面的事情,一边自己学习数据挖掘方面的知识。但目前主要存在三点问题:
- 畏惧算法的难度,没有下定决心要做这方面工作。机器学习是今年计算机专业最火的方向,从去年研一的课程就能看出来,学院里基本上人手一本周志华的《机器学习》,但是看到师兄师姐秋招的时候,基本上还是找的研发岗位,做数据挖掘、算法的人很少。原因一般都是说算法下功夫是能学好的,但是算法岗的竞争太厉害了,都是要和985的硕士去竞争算法岗。所以说算法难,不是说学习算法难,而是说竞争工作岗位太难。
- 2018年所学的数据知识太过于零散,没有成为体系。现在网上的资料太多,把大部分资料存在网盘、电脑里。每天都有公众号、阅读平台推荐很多书籍、视频等。很多时候是一本书没有看完,又去看其他的资料了。这样导致说到某个知识点,感觉我听过这个术语,但是没有掌握它。得到的知识点都是碎片化的,没有形成自己的数据挖掘知识体系。
- 没有找到志同道合的小伙伴。学习的道路上,有一致目标的小伙伴感觉还是非常重要的,可是互相监督,竞争加合作的良性循环。现在身边的人都说算法太难了,不要弄算法,搞得每次看数据挖掘的东西都要偷偷摸摸的感觉。
马上2019年了,这段时间也思考了很多,现在至少决定了以后就要做数据相关的工作,一来因为现在数据岗位火热,其次现在越来越喜欢数据思维。数据思维就是我们对这个世界的认知方法,从日常大量所见,得出对自身有利的规律和对这个世界的理解。兴趣是很重要的驱动力,所以决定好好学习数据挖掘。决定了就好好去干,在这次机会下,做一个学习数据挖掘的计划。
- 理论篇:
- 数学基础:高等数学、线性代数、概率论、最优化理论。数学部分基本上都已经学过,以后碰到不熟悉的知识点再去查看就好,不再次进行整体学习。
- 传统数据结构算法:LeetCode刷题。这一部分感觉是面试很重要的东西。
- 机器学习算法:李航的《统计学方法》、周志华的《机器学习》、吴恩达的《深度学习》。要理解其原理,不能将建模过程作为一个黑箱操作,可以将一些传统的机器学习算法手推出来。
理论着重于对算法的理解,如何将一个实际问题抽象为数学问题,选择合适的模型,更进一步选择合适的超参数。比较出各个算法的优缺点,各自适应的情况。
- 工具篇:
- python编程语言:这一部分着重学习python基础和数据挖掘相应的包。从数据获取与存储、数据清洗、特征工程、 建立模型、数据可视化等方面来学习使用python。
- SQL语言与数据库原理:本科的时候学习过数据库原理,但没有使用过MySQL,需要练习MySQL的实际操作。
- 商用软件如Excel。
这是目前计划的学习内容,需要好好坚持,希望可以在这个一周一篇文章的激励下,每周都有好的产出成果。