说到数据,要分析清楚几个概念。
统计是一门应用学科,通过利用高等数学和概率论等数学背景来建立理论模型,将相关数据整理和填补,利用各种统计检验方法对其进行量化分析,以求达到总结和预测的最终作用。统计学和数据挖掘的关系并非是包容的,一般人认为数据挖掘是统计学的分支,其实二者是有一定的交集。对于现在大数据背景下,人们更多强调数据的海量,却往往忽略统计基础的实现。统计与数据挖掘的区别如下:
1、统计学是以数学为基础理论体系的,而数据挖掘偏向于计算机领域;
2、统计学接触的是样本数据,即在样本基础上估计总体,而数据挖掘本身在总体范围里面估计。
3、统计学更加注重运用数学上已经明确的模型来研究数据,而数据挖掘注重机器学习和计算机科学这样的经验,即不管模型是否有得解释。
4、统计学的本质是利用预期模型得出结果,而数据挖掘的本质是发现非预期但是有价值的信息,确定性是不一致的。
需要具体了解二者关系的同学请戳:http://www.36dsj.com/archives/5114