做数据科学相关的工作,本质上是从数据的角度去解决业务问题。
我遇到一个很有意思的现象,很多朋友喜欢问,哎你用的是什么的模型啊!
业务上面的问题,例如银行会遇到的风控,营销方面的流失分析,和图像识别,语音识别之类问题有非常大的不一样。
图像数据,语音数据之类的数据是有明确的模式的,你换一个算法模型效果可能会有显著提升。
而业务上面的问题,则非常不一样,业务上的数据非常受人为的因素影响,或者说收到业务环境中各种因素影响。造成的结果就是数据中的模式不明显,或者数据中的模式收到很多误差影响,甚至是说数据中根本就没有模式。这种情况下你换什么模型都不好。
业务上面的数据科学工作想要做的好,不完全取决于模型。如何做好数据科学的项目,可以参考我的书籍<深入浅出R语言数据分析>的第一章节
http://tup.com.cn/Wap/tsxqy.aspx?id=08573301
一般懂的人会先问:你的问题是什么,你的目标是什么,你的数据是怎样的?有多少数据可以用?数据质量是怎样?有什么分析结果?先拿数据来看看一看吧。
关键点是 1 定义目标 2 分析数据
大多数情况下,模型的建立和选择是最简单的一个步骤。