回归分析是一种通过样本数据,确定自变量和因变量之间相互关系的一种统计分析方法,主要用来解决两个方面的问题:一个是推断(inference),从影响因变量的诸多自变量中找出哪些变量的影响是显著的,哪些是不显著的,影响程度如何。第二个是预测(prediction),利用确定的数学表达式,对给定的自变量,预测因变量的值,并给出这种预测的可靠程度。依据因变量的类型,回归分析包括多元线性回归,逻辑回归,多项式逻辑回归,定序回归,泊松回归等模型。下面分别介绍这几种模型的基本原理和应用场景,最后通过广义线性模型的概念将这几种模型统一到一个模型框架中。
一、多元线性回归模型
当研究多个连续性自变量与连续性因变量之间的关系时,适合多元线性回归模型。其基本表达式为:
其中,ε表示误差项,且ε服从均值为0,方差为σ2的正态分布。
1.1、多元线性回归的模型假设
- 多个自变量与因变量为线性关系。
- 误差项 ε 服从平均值为 0,方差为 σ2 的正态分布,而且方差的大小不随着预测变量 x 值改变,也叫做同方差性。
1.2、显著性检验
(1)相关系数r的显著性检验
相关系数r描述的是两个数值型变量线性相关的大小,取值为-1~+1,当r=-1时为完全负相关,r=+1时为完全负相关,r=0时为完全不相关。注意,r描述的变量间线性相关性大小的度量,r=0说明变量间不存在线性相关关系,但可能存在非线性相关关系。
如果总体的线性相关系数ρ未知,需要通过样本的线性相关系数r来检验总体的变量间线性相关的显著性,可以通过t检验法,具体步骤如下:
1)提出假设
H0:ρ=0, H1:ρ≠0
2)构造t统计量
3)给定显著性水平α,确定拒绝域,做出决策
依据给定的显著性水平α,查找t分布表的tα/2(n-2),如果t>tα/2(n-2),则拒绝原假设,认为总体的两个变量是线性相关的。
(2)总体显著性检验
线性关系检验是检验因变量与k个自变量之间线性关系是否显著,也成总体显著性检验。
- 提出假设
H0:β1=β2=...=βk=0
H1:β1,β2...βk至少有一个不等于0
- 提出假设
-
2)构造检验统计量F
- 3)做出统计决策
给定显著性水平α条件下,根据分子自由度为k,分母自由度为n-k-1的F分布,找到Fα,如果F>Fα,则拒绝原假设,表明因变量与k个自变量线性关系显著。
(3)回归系数检验
检验一个自变量对因变量的影响程度,可以用t检验法。 - 1)提出假设
H0:βi=0
H1:βi≠0 - 2)构造t统计量
-3) 做出决策
对于给定的显著性水平α,依据自由度n-k-1计算tα/2的值,如果t>tα/2,则拒绝原假设,表明自变量对因变量的影响是显著的。
1.3、回归系数的解读
- 多元线性回归模型的回归系数,当各个自变量相互独立时(即回归模型中自变量没有很强的相关性),连续型自变量回归系数表示在其他条件不变的情况下,自变量每增加一个单位因变量的变化值;分类型自变量回归系数表示,在其他条件不变的情况下,自变量的某一类别相对与参考类别,多对应的因变量平均值的差异。
- 回归模型中的截距,表示自变量为0时,因变量的值。很多时候自变量为0没有意义,这时可以对数据进行中心化处理,即先将自变量统一减去平均值,再做回归。这时,截距β0的意义为,自变量取平均值时,因变量的取值。
- 当两个变量x1,x2之间存在交互作用时,可以将交互变量x1*x2作为一个变量加入到回归模型中。这时,回归系数的含义就与上述第1条的含义不同了。很多时候,建立含有交互变量的回归模型是为了做统计推断,通过交互变量的回归系数检验,判断两个变量之间交互作用是否显著。
- 混杂效应:如果自变量x1与因变量y显著相关,且是导致y变化的原因,自变量x2本质与因变量y无因果关系,但与自变量x1有相关关系。那么如果模型中只包含x1变量,x1回归系数会显著相关;如果再
新加入自变量x2,会导致本来显著的x1回归系数变为不显著。这时的自变量x1为混杂变量。 - 遮蔽效应:如果在包含自变量x1,x2的回归模型中,x1与因变量y呈显著的正相关关系,x2与因变量y呈显著的负相关关系,如果x1与x2有正相关关系,那么在只包含x1的回归模型中回归系数可能变得不显著。此为遮蔽效应。
1.4 回归模型评价的指标
(1)多重判定系数R2
回归直线对各个观测点的接近程度称为回归直线对数据的拟合优度。
样本观测值与样本均值的差值平方和(总平方和SST),可以分解为样本回归预测值与样本观测值的差值平方和(残差平方和SSE)和样本回归预测值与样本均值的差值平方和(回归平方和SSR)
多重判定系数R2为回归平方和与总平方和的比值,表示样本观测值与平均值的离差程度中有多少可以用回归方程来解释。
但是回归模型中变量个数的增加会使R2只增加不减少。因此如果单纯增加一些无关的自变量,也会使R2增加。
(2)修正的R2
为了消除变量个数增加对R2的高估,统计学家提出利用Ra2来代替,该数值越大,模型越好:
(3) 赤池信息标准(Akaike Information Criterion,简称AIC, 因日本统计学家赤池弘次而得名):数值越小,模型越好;
(4)贝叶斯信息标准(Bayesian Information Criterion,简称BIC):数值越小,模型越好。
其中,(2)~(3)都可以衡量模型与数据契合的程度,同时依据模型中自变量的数目进行调整,从而消除过拟合的影响。都可以在不损失样本数据量的情况下,与样本外验证方法(一部分样本作为训练集数据训练模型,另外一部分样本作为验证集通过R2评价模型好坏)得出的结果相吻合。
1.5、回归方程预测
回归方程的预测包括点估计和区间估计。点估计就是给定自变量X的具体取值X0,依据回归方程关系式来估计Y值;区间估计是要在一定置信水平下,给定自变量X的具体取值X0,估计出Y值的某一区间,包括置信区间估计和预测区间估计。
(1)置信区间估计
给定自变量X的具体取值X0,给出因变量Y平均值的区间估计。
当为一元线性回归时,估计量为:
在1-α的置信水平下,得到的置信区间估计为:
(2)预测区间估计
给定自变量X的具体取值X0,给出因变量Y一个个别值的区间估计。
当为一元线性回归时,估计量为:
在1-α的置信水平下,得到的预测区间估计为:
可以看出,在同一个X0情况下,预测区间比置信区间宽一些。
1.6 线性回归模型的诊断
(1)线性关系判断
线性模型有一个应用前提,就是自变量x与因变量y为线性关系,可通过x与y的散点图来大致判断是否为线性关系,如果不是,可考虑通过加入x2或log线性变换的方法。
(2)残差分析
在我们建立的所有回归模型中,都时假定随机误差ε是一个期望值为0,方差相等且服从正态分布的随机变量。如果关于ε的假定条件不成立,那么回归分析中所有的显著性检验和预测估计都不成立。确定ε的假定条件是否成立的分析叫做残差分析。
1)关于x的残差图
残差是因变量的观测值与预测值的差。即ei=yi-i。以自变量x为横坐标,残差为纵坐标绘制的散点图即为关于x的残差图。
如果对所有的x,ε都相等,那么残差图上的点应该大致在一条水平线上(如图a)。如果偏差很大(图c),需要考虑曲线回归。
图b方差随着自变量x的增大而增大,这种现象称为异方差性。实际上,异方差性对于线性模型并不是一个致命的打击,用普通的线性模型估计出来的回归系数与实际情况也不会差太多,只是回归系数的方差会被放大。这时如果使用加权最小二乘法(weighted least squares),给误差大的数据点相对小一点的权重,则会得到比用普通最小二乘法更准确的对于回归系数的估计。
2)标准化残差图
如果ε服从期望为0的正态分布,那么将残差标准化后的变量就服从标准正态分布。即
如果关于ε假设成立,那么有95%的标准化残差在-2~2之间。
(3)多重共线性
线性回归模型要求各自变量间要尽可能相互独立。如果回归方程中多个自变量之间存在相关性,则成为多重共线性。
- 判别方法:
1)变量之间相关系数r的t检验显著
2)线性回归的F检验显著,但是几乎所有回归系数β的t检验不显著
3)回归系数的正负号与预期的相反
4)容忍度与方差扩大因子VIF。容忍度等于1减去该自变量为因变量而其他k-1个自变量为预测变量时所得到的线性回归模型的判定系数。容忍度越小,多重共线性越严重。方差扩大因子等于容忍度的倒数,VIF越大,多重共线性越严重。 - 多重共线性问题处理
1)将一个或多个相关的自变量从模型中提出,使保留的自变量尽可能不相关
2)如果要在模型中保留所有的因变量,应该:
避免依据t统计量对单个参数β进行检验;对因变量y的推断限定在自变量样本值的范围内。 - 多重共线性的弊端
1)回归系数无法解读。部分回归系数本来是正相关,由于共线性可能变为不相关甚至是负相关。
2)回归模型不稳定。用不同数据计算出的同一变量的回归系数,可能差别较大,导致模型不稳定。
1.7 强影响点的判断和处理
- 强影响点的判断
对于某个数据点,如果残差较大,则可视为离群值。但离群值不一定是强影响点。为了判断离群值是否为强影响点,可以利用Cook距离来判断单个数据点对线性回归模型的影响。其原理是计算在有、无该离群值情况下,线性回归模型回归系数的变化,并进行标准化,使不同研究、不同数据集和不同模型下的Cook距离都可以进行比较。通常情况下,如果离群值位于自变量的边缘,对模型回归系数影响较大,如果位于自变量取值范围的内部,则对模型回归系数影响较小。 - 强影响点的处理
对于强影响点,我们可以选择去除。但最好的方法是收集更多数据,随着更多数据加入,如果这个强影响点真实反映了客观事实,那么我们会向着真相更近一步;如果这个强影响点是噪声点,那么随着新数据的加入,该点也会逐渐淡化。
1.8、逐步回归
最优的回归模型应该满足以下两个条件:1)线性回归的F检验显著,回归平方和能够解释的总平方和越大越好。2)每个自变量对因变量的影响都是显著的
通过逐步回归法可以找到最优的回归模型,同时逐步回归也是自动筛选最优变量和解决共线性的方法之一。逐步回归有前向法、后向法和逐步法。
对n个样本,每个样本包括m个特征。
- (1)前向法
1)对m个变量,分别建立与变量y的一元线性回归,并计算线性关系检验统计量F的值,从中选择最大的F,并对其进行统计检验,若不显著,则终止变量选择过程;否则将对应的一个自变量x加入到最终的变量选择集合中。
2)将选中的自变量x分别与未选中的m-1个自变量建立m-1二元回归,利用偏回归平法和、残差平法和来计算回归系数检验的F统计量F(1,n-2-1),从中选择最大的F,并对其进行统计检验,若不显著(F<Fα(1,n-2-1)),则终止变量选择过程;否则将对应的一个自变量x加入到最终的变量选择集合中。
3)将选中的l个自变量分别与未选中的m-l个自变量建立m-l个(l+1)元回归,利用偏回归平法和、残差平法和来计算回归系数检验的F统计量F(1,n-(l+1)-1),从中选择最大的F,并对其进行统计检验,若不显著,则终止变量选择过程;否则将对应的一个自变量x加入到最终的变量选择集合中。 - (2)后向法
后向选择法与前向选择法相反,初始时选择所有m个变量与y建立回归,然后从已选变量中去除一个变量后建立m-1元回归,利用偏回归平法和、残差平方和来计算回归系数检验的F统计量F(1,n-m-1),从中选择最小的F并对其进行统计检验,若显著(F>Fα(1,n-m-1)),则剔除对应变量;否则终止变量筛选过程。对于已选的l个变量,用于检验的F统计量为F(1,n-l-1)。不断重复以上过程,直至达到终止条件。
-(3)逐步回归法
逐步回归法是前向法和后向法的结合。初始时前向法选择一个变量,加入到已选变量中,然后对已选变量集合进行后向法剔除变量。直至前向法不能增加一个变量,同时后向法无法剔除一个变量,终止变量选择。因此,前一轮被剔除的变量在后面可能被重新选择,前一轮被选择的变量在后面也有可能被剔除。
二、逻辑回归模型
2.1 简单逻辑回归模型
(1) 模型数学表达形式
简单逻辑回归模型用来解决因变量是二元取值(只能取0或1)的分类模型。其数学表达式如下:
其中,右边与线性回归模型表达式一致,左边对其进行了一个线性变换,log(p/(1-p))称为分对数。p代表因变量取1时的概率。
(2)回归系数的解读
- 1)自变量为连续变量
由于概率p与自变量x为非线性关系,因此,在自变量x增加单位值时,p增加值不是固定的,随着x取值的变化而变化。由数学微积分知识可以证明,逻辑回归系数可以解读为:当自变量x变化一个单位时,概率p变化的最大值为回归系数除以4(又称为除4法则)。 - 2)自变量为分类变量
如果自变量为分类变量,且有N个取值,可以用N-1个哑变量来表示这N个取值,剩下的那1个变量为参考变量。此时,哑变量回归系数表示,当自变量取值为该值时,相对于参考变量概率变化了多少。如果回归系数为正值,表示相对于参考变量概率提升,如果为负值表示相对于参考变量概率下降。
(3)回归系数的统计检验 - 1)Wald检验
此方法与线性回归模型回归系数的检验方法一致,通过原假设回归系数为0,然后构造回归系数的z检验或t检验统计量,来判断p值是否小于显著性水平。但是,在逻辑回归模型可以完美区分数据集的情况下(即在自变量取值范围内数据取0或1是泾渭分明的),满足条件的逻辑回归模型有多个,这时回归系数统计量的标准误差很大,导致最终的p值很大,倾向于接受原假设,这与事实不符。因此,需要用到第二种检验方法:似然比检验。 - 2)似然比检验
似然比检验的思路是,分别计算在不包含自变量x与包含自变量x两种情况下,通过极大似然估计得到模型参数后,分别计算似然值L0和L1,当L1比L0大到一定程度时,可以认为回归系数不显著为0。统计学中用拟合优度G2作为检验统计量进行检验,其公式如下:
统计学软件中通常不会给出L0和L1的值,而是会给出偏常(deviance,通常用D表示)的值。偏常D的计算公式如下:
其中,Lfull表示饱和模型的似然值,饱和模型是一个可以完美拟合所有数据(0和1)的理想模型,仅仅与具体数据集有关系,是模型可以达到似然值的上限。
因此,拟合优度G2为无、有自变量x情况下偏常的差值,即:
(3)逻辑回归模型的诊断
与线性回归模型相比,逻辑回归模型不要求残差服从正态分布,且不要求齐方差性。模型假设仅要求模型的分位数与自变量之间为线性关系。同样,可以利用残差图来分析。
与之不同的是,由于因变量只能取0或1,因此预测概率在取特定值p时,残差只能为-p或1-p,数据点在两条直线上,不便分析。因此,可以通过分箱残差图来判断,方法是:将预测概率区间分段,分别统计各区间范围内预测概率和实际观测值的平均值,然后再绘制平均预测概率与平均实际观测值间的残差图。如果数据点大致位于0附近,可以认为模型假设符合要求。
此外,可以通过分箱残差图来计算95%概率范围内残差数据点的分布。原理是:对于某个预测值,该分箱数据区间内的n个数据点,取1的数据个数服从二项分布,从而可以计算出95%概率范围数据取1的个数,进而计算出实际平均值和相应的残差范围。
2.2 多项逻辑回归模型
(1) 模型数学表达形式
简单逻辑回归只能处理因变量取值为0或1两个变量的情形,对于因变量取值多于2个,需要用到多项式逻辑回归。比如,对于5个类别,数学模型如下:
由于对于每一个数据,属于这5个类别的概率总和为1,因此,可以将数据属于5个类别概率表示出来,公式如下,然后应用极大似然估计分别估计出各参数:
(2) 回归系数的解读
当自变量为连续变量时,回归系数表示自变量增加一个单位时,类别i相对于参考类别比值的变化(不是类别i概率的变化,而是概率比值的变化,概率比值增加,但是类别i概率可能减小)。当自变量为分类变量时,回归系数表示相对于参考变量值,自变量取值为x时类别i相对于参考类别比值的变化。由于多项逻辑回归中,某一类别i的概率除了与当前类别回归系数有关,还与其他类别回归系数有关,因此“除四”法则不再适用。
2.3 定序回归模型
(1) 模型数学表达形式
定序变量为一种不同类别之间有大小关系,但不同类别之间距离是不明确的分类变量。即定序变量“只问方向,不问远近”。定序回归模型采用累计变量概率作为建模的基础。如果有“非常不满意”、“不满意”、“一般”、“满意”、“非常满意”共5个类别,定序回归的模型表达式如下:
(2) 回归模型的解读
假如建立关于自变量x1(等待时间),x2(单人还是多人)两个自变量与因变量满意度p的定序回归模型,数学表达式如下:
2.4 泊松回归模型
(1) 模型数学表达形式
泊松回归用来处理因变量是计算变量(比如某时间段内事件发生的次数、来访的人数等)时建立回归模型的情形。其数学基础来源于泊松分布:
其中,k为发生的次数,λ为未知参数,既为平均值,也是其方差。因此,泊松回归用下式来建立自变量与未知变量的联系:
(2) 回归系数的解读
由于模型左边对λ做了一个对数变换,因此泊松回归系数β表示:在其他变量不变的条件下,自变量增加单位值时,因变量λ是原来的eβ倍,即增加了eβ-1倍。
三、广义线性回归模型
无论是多元线性模型、逻辑回归,还是泊松回归模型,本质上都可以归一到广义线性模型之下,模型右侧都可以表示为线性模型,