第1节 成对数据的统计分析
一、变量间的相关关系
1、两个变量有关系,但又没有确切到可由其中一个区精确地决定另一个的程度,这种关系称为相关关系;
2、如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
3、一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;注:如果散点落在某条曲线附近,而不是落在一条直线附近,说明这两个变量具有相关性,但不是线性相关;如果散点落在一条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;
4、一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关。
二、样本相关系数:用来衡量两个变量的线性相关关系
1、定义 r=
我们称r为变量x和变量y的样本相关系数
2、特征
(1)当r>0时,称成对数据正相关,这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大
(2)当r<0时,称成对数据负相关,这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小
(3)样本相关系数r的取值范围为[-1,1]
(4)样本相关系数r的绝对值大小可以反映成对数据之间线性相关的程度:
当|r|越接近1时,成对数据的线性相关程度越强
当|r|越接近0时,成对数据的线性相关程度越弱
第2节 一元线性回归模型及其应用
一、一元线性回归模型
x与y的关系可以表示为:
我们称上式为y关于x的一元线性回归模型,其中,y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是y与bx+a之间的随机误差
二、一元线性回归模型参数的最小二乘估计
1、经验回归方程
我们将:
关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计。
注:由于a=y-bx,即(x,y)满足经验回归方程y=bx+a,所以经验回归直线必定过样本点的中心(x,y)
2、残差分析:
对于响应变量y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差,残差随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析。注:残差可以是正数,也可以使负数,也可以是0
注:
(1)如果在残差的散点图中,残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定,是均值为0,方差为的随机变量的观测值
(2)可以通过比较残差的平方和来比较两个模型的效果,残差平方和越小,模型的拟合效果越好;残差平方和越大,模型的拟合效果越差。
也可以用R的平方来比较两个模型的拟合效果,R的平方计算公式为:
R的平方越大,模型的拟合效果越好,R的平方越小,模型的拟合效果越差。
第三节 列联表与独立性检验
一、分类变量
我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示。
二、22列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表表示的数据统计表称为分类变量x和y的抽样数据的22列联表
2*2列联表给出了成对分类变量数据的交叉分类频数
三、独立性检验
构造随机变量: 利用 的取值判断分类变量x和y是否独立的方法称为x 的独立性检验,读作“卡方独立性检验“简称独立性检验””