一、基础知识点
1、列相当于X轴,行相当于Y轴
2、重分箱:把分类类目中频数少的合并归为一类,如 30年代的数据就几条记录,40年代数据就几条记录,50年代有几十条以上,可以把30、40、50年代数据合并为同一类50年代前;把分类多的类目再归纳为几组类目
3、P值:即F检验,值大于0.05表示推断式子不符合事实,不成立;R²值:解释性比例,即拟合度,是能拟合的值除y值所得比率,值越大,拟合度越高,公式越能达到目的。
4、数据分析分类描述性分析和探索性分析(看图说话)、推断性分析和预测性分析(涉及回归、机器学习等算法)、因果分析和机理分析(研究领域使用);其中因果分析是寻找x与y的定性关系,机理分析是在因果分析基础上寻找x与y的定量关系
5、聚合函数与if结合使用注意事项:if中不能存在聚合函数和非聚合函数的运算过程,if要写在聚合函数中。比如sum(if [产品类别]== "家具产品" then [利润]-[运输成本] else [利润] END)/sum([销售额]);或者 if attr([产品类别])== "家具产品" then sum([利润]-[运输成本])/sum([销售额]) else sum([利润])/sum([销售额]) END
6、Tableau中直方图:高度表示频数和频率;其他软件的直方图:面积表示频数和频率
7、看连续数据分布情况是通过直方图、箱线图等观测
8、箱线图:主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。四分位距IQR=Q3-Q1,上边缘=Q3+1.5IQR和下边缘=Q1-1.5IQR