数据分析方法
描述统计 数据收集、处理、汇总、图表描述、概括与分析等
推断统计 样本数据推断总体特征
统计数据的类型:
A. 分类数据、顺序数据、数值型数据
B. 观测数据、实验数据
C. 截面数据、时间序列数据
基本概念:总体 population
样本 sample 样本量 sample size
参数 parameter → 用于描述总体特征的概括性数字度量,如总体平均数、总体标准差等,一般用希腊字母表示,如μ
统计量 statistic → 用于描述样本特征的概括性数字度量,如样本平均数,样本标准差等,一般用英文字母表示,如s(样本标准差)
抽样的目的就是要根据样本统计量去估计总体参数,除了一般样本方差之类的统计量,还有一些为了统计分析构造出来的统计量,如z统计量,t统计量,F统计量等
统计数据就是统计变量的某些取值,统计变量可以分为分类变量、顺序变量和数值型变量
数据抽样
概率抽样 probability sampling / 随机抽样
随机需要按照给定的入样概率,通过一定的随机话程序抽取样本单元
概率抽样 分为 等概率抽样(总体中每个单位都有一定的非零概率被抽中)和不等概率抽样
实验数据:指在实验中控制实验对象而收集到的变量的数据
数据误差:抽样误差和非抽样误差
抽样误差:抽样的随机性引起的样本结果与总体真值之间的误差
抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言,而是描述所有样本可能的结果与总体真值之间的平均差异
抽样误差大小最主要与样本量大小有关,样本量越大,抽样误差越小
也与总体的变异性有关,各单位之间的差异性越大,抽样误差越大
抽样误差可以计算
数据的图表展示
数值型数据排序后的数据成为顺序统计量
Excel中的数据透视表的使用
频数指落在某一特定类别或组中的数据个数,把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,成为频数分布。
Excel制作分类数据的频数分布表/交叉制表
比例 proportion 是一个样本/总体中各个部分数据与全部数据之比 → *100% = 百分比
比率是样本/总体中不同类别数据之间的比值,比率可能> 1
条形图、柱形图
帕累托图
按各类别数据出现的频数多少排序后绘制的条形图
饼图
主要用于一个样本/总体中各组成部分数据占全部数据的比例,有利于研究结构性问题
复式饼图:用于展示两个或多个分类标量的构成情况
环形图
每个样本用一个环表示,样本中的每一部分数据用环中的一段表示,因此环形图可显示多个样本各部分所占的相应比例
累积频数
累积频率
数值型数据的整理与展示
组距,一个组的最小值称为下限,一个组的最大值称为上限
a ≤ x < b 上组限不在内解决不重的问题
组中值 = (下限值 + 上限值) / 2
使用组中值代表一组数据必要条件:各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。
直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的,横轴表示数据分组,纵轴表示频数或频率
直方图与条形图不相同
条形图主要用于展示分类数据,直方图主要用于展示数值型数据
茎叶图
反映原始数据分布的图形
箱线图
由一组数据的最大值,最小值,中位数,两个四分位数这五个特征值绘制而成
线图 时间序列数据
用于反映现象随时间变化的特征
多变量图示方法
散点图、气泡图、雷达图
散点图 x,y横纵轴,两个变量
气泡图,xyz,气泡大小表示第三个变量z