人们总是问我如何有效的成为一名数据科学家。在这篇文章里,基于西线学院在这个领域的经验总结,给出了成为数据学家的首要步骤,目的是为了帮助那些想从纯软件工程领域转行到数据科学。
第一步:从解决一个难题开始
尽管你对于数据科学领域的机器学习和数据方面一无所知,从解决一个难题开始非常重要。理想化的,你可以找一些自己感兴趣的东西,因为这样做起来会更有激情。
第二步:跨越你知识的屏障
无论你选择了什么问题,你都会面对跨领域知识的学习,像维基百科,教材和网上课程都会是类似机器学习和数据,最好的基础教程。当你面对一个具体的难题时,阅读专业论文将会有助于你更好地理解眼下这个难题。
第三步:弄“脏”你的手
当选好的课题和跨领域学习都已经基本完成,是时候做一个计划并且努力实现它。那就是:我将更多关注于开发处理搜集数据过程的建模算法。该方法更像是由直线思维的软件工程师提出来的,而不像是数学家或者数据学家的方法。
这个计划非常的简单:
• 复制结果,结果显示rating inference 模型是由很多目标群体提供的文本测试过的;outperform 模型有更多多样性的客户提供的文本测试过的。
• 用一种被联合筛选的方法,以目标客户提供的文本为基础,把许多单一作者的模型和infer rating 的模型就目标群体的共同点进行对比。
• 多种相似的实验方法基于训练和目标客户提供的大量文本中各种各样的限制条件。
• 重复这些方法直到结果出来。
第四步:发表你的结果
制定一个发表结果的期限的确很有压力,但是它会有两个积极的效应。第一,把你的实验结果公布开来可以让你得到有价值的反馈。第二,艰难的截止日期可以有助于你制定切实的目标。你可以一直保持收获无数细小的进步,但是出版截止日期可以强制你停下来。
第五步:完善你的结果并且继续前进
专注于同一个难题-探索更多的方法,加入更多的数据,改善限制条件等。你也可以着眼于其他你感兴趣的难题。