2017.1.16更新
深深地感觉到, 语言和现成的算法都不是那么难, 难的是在实践中去深入地理解算法, 并运用工具来实现脑海中的想法, 同时优化现有的算法, 以期得到最优的结果
终于下定决心来入Data Science的坑,虽然作为一个商科出身的人,这个方面不占优势,但我还是好好研究了怎么入坑,确定坑非常深之后,报了一个激励自己学习的考试,义无反顾跳下去了( ⊙ V ⊙ )
坑有多深请欣赏:
入坑途径
1. 统计学
(1) <Statistics for Business and Economics>
听说是统计学最好的教材,为了下到最新的英文版,跑到某经济论坛答了几个题,赚了100个论坛币,下到了最新的12th版本,打印了慢慢啃
(2) Coursera<Statistics with R> by DU
杜克大学的萌萌哒女教授的课,口音很特别,因为学的时候还没有R的基础,我没有付费,略过了R的作业部分,但是!!!课程讲得超级好~,非常非常好的统计学课程,比大学里的某结巴老师不知道高到哪儿去了,仔细地做了笔记,结合上面的书一起看效果拔群
(3) Stanford-Lagunita<Statistical Learning> by SU
机器学习领域的两位大牛亲自上阵教授, 看论坛的反应, 不算是入门课程了,在学习完杜克大学的统计后再学习效果应该会更好, 也是用R语言的
2. 计算机科学
R语言
比较基础,入门不难的coding language, 统计学的经典语言, 作为入门的开始, 很多课程都是以R作为教授语言的
(1) Coursera<R Programming> by JHU
√
事实上这门课是一个坑,在认清是个坑之前付费了╮(╯▽╰)╭,视频内容简单,可是和作业脱节严重,对初学者来说assignment上来就写复杂的函数很有难度,老师是个华裔,并且还结巴,照着ppt念的那一挂.已经学完拿到证书了,写第一个函数作业的时候简直想shi,但是熬过来以后发现虽然课程太跳脱,但是非常锻炼人,最后一个assignment都是自己写的,卡住的时候只看了别人的一点点思路,给自己点个赞
(2) <R语言实战>
√
下了中文版,和coursera的课一起啃,有些地方重复,有些地方互补, 算是零基础入门级的,但其实有些原理还是略过了,和JHU的课程一起学习效果1+1大于2
(3) edX<The Analytics Edge> by MIT
朋友推荐的用R语言的机器学习课, 包括线性回归/逻辑回归/决策树/聚类/可视化/线性最优, 入门后再进一步学习
(4) <机器学习与R语言>by Brett Lantz
看完MIT的课程再看这本书, 进一步巩固使用R做机器学习的代码和方法, 比课程的算法多, 还包括贝叶斯和神经网络
(5) <R graphics cookbook>
关于数据可视化, 关于ggplot2的书,把R打好基础之后结合case好好学
SQL
关系型数据库的查询语言, 必备技能之一
(1) Coursera<Managing Big Data with MySQL> by DU
关系型数据库的入门课程, 打算学习了R差不多再来学这个
Python语言
先把R掌握得差不多,能够比较顺畅地做data mining后,再来学这门,貌似现在用Python比R更多,在处理更大量的数据方面比R有优势,也是入门容易的语言
(1) Coursera<零基础Python入门专项课程> by UM
学过前两门课了,Dr. Chuck很风趣,课程深入浅出,零基础者强烈推荐
(2) <Python动物书>
看到知乎推荐的,这一系列都很畅销的说
(3) edX<Introduction to Computer Science and Programming Using Python> by MIT
传说中MIT的令人交口称赞的课程,主要讲计算机思维,Python作为语言工具, 17年1月份开课,那个时候学正好
Hadoop/Spark, etc.
大数据相关的系统
某个大数据分析课程: 基础知识的学习, 学完再来评论
3. 一些数据分析的入门书籍
(1) <数据挖掘导论>
√
朋友推荐的,在学习R的同时看,在没有打好统计学基础的时候看,非常地费力气,因为根本看不懂,还好平时有看过一些数据分析类的文章,对各种算法似懂非懂,讲的都是些key points, 简略,但是其实这是一本很概括的书,应该花很大力气认真看的好书,不同阶段重新读都会有不同的体会,已经看过第一遍,看第二遍中
PS: 如果以后已经比较熟悉了,再去看英文原版
(2) <Data Mining: Concepts and Techniques>
又一本朋友推荐的书,应该是一部导论和深入并行的书,打算看完导论再来看这本
(3) <机器学习实战>
又又朋友推荐的书,讲机器学习算法的,看过导论类的书再看这个应该比较好
4. 一些网站
(1) GitHub
当然是必须的了,注册了一个账号,可能太陌生了,刚开始体验没那么友好,用github交了一次coursera作业,有些功能依然是懵逼的,慢慢体验,慢慢写自己的code
(2) Kaggle
DS最权威的开源项目社区了吧?还处于0成就中,慢慢积累吧
(3) DataCastle
国内的DS开源项目
(4) 36大数据
算是比较新和全的关于大数据的国内网站了,但是排版还是比较乱,信息比较杂乱
(5) 可视化工具网站1:百度图说
百度不多的良心产品之一,如果会Java,还可以参见百度不多的良心产品之二:Echarts
(6) 可视化工具网站2:文图
另一个使用频率很高的可视化图表网站
5. 一些其他工具
Excel:掌握excel还是很重要的,一些简单又平常的数据分析妥妥够了,惭愧的是以前没有学好,现在临时抱佛脚,有限的时间只能学一些皮毛
和秋叶一起学Excel√
唯一付费学的网易云课堂课程,没有到VBA这么深,但是对于平时的作图\批量处理数据\数据透视表等等,非常够用了,ppt的形式,加上实战excel案例,妙趣横生,很多小技巧,优美的图表制作,冲秋叶的审美比其他excel课程高出一大截就值得付费,还没有连载完毕,已经学完了,等更新中~
PS: 貌似涨价了,CMB的掌上生活APP可以用9积分购买30元的代金券
先写到这里,纪念第一次用markdown写文章
------2016.11.7深夜