违背基本假设的回归分析
回归模型的基本假设:
假定随机误差项ε₁,ε₂,…,εn具有相同的方差,独立或不相关。即对于所有样本点,有:
又称为高斯-马尔柯夫条件。另外经典线性回归模型还假定自变量x之间无多重共线性。
但在建立实际方程模型时,常会遇到与假设相违背的情况。通常有:
- 异方差性
- 自相关性
- 多重共线性
接下来,将分别介绍异方差性、自相关性、多重共线性产生的背景和原因及影响,并描述相应的诊断及处理方法。
1.异方差性
在实际问题中,常会出现某些因素随着解释变量观测值的变化对被解释变量产生不同的影响,导致随机误差具有不同的方差。事实上,引起异方差的原因多种多样,通常样本为截面数据时容易出现异方差性。
在存在异方差性时,如果仍采用最小二乘法估计参数,会导致回归系数的t检验值高估,可能造成本来不显著的某些回归系数变为显著。使参数检验失去了意义。
因此,在建立模型前,应进行异方差性的检验。常用方法有2种,一是残差图分析,二是怀特检验:
-
残差图分析
以残差εi为纵坐标,以拟合值y(或自变量x、观测时间、序号)为横坐标做散点图。如果εi不随x和y变化而变化,则视作无异方差性。见下图:
图片来源于《多元统计与SPSS分析》
-
怀特检验
做辅助回归。首先做y关于x的普通最小二乘回归,求出εi的估计值ei,然后做以下辅助回归:
注:SPSS中只能在定义时间序列的基础上进行怀特检验,推荐使用SAS和eviews工具。
异方差性的补救措施:
-
加权最小二乘法(WLS)
假设线性回归方程Y=Xβ+ε存在异方差性。cov(ε)=E(εε‘)=σ²W,其中,
加权最小二乘法基本思想是对原模型加权,使之变为一个新的不存在异方差的模型。
在使用加权最小二乘法时,为了消除异方差性的影响,观测值的权数应该是:
-
对数变换
取对数后,使得测定的值的尺度变小,同时,取对数后的残差为相对误差,比绝对误差小。但是对数变换往往会造成数据的解释意义不明确。因此要做出权衡。
SPSS应用
利用SPSS软件可以求出ωI的最优值。
步骤:分析->回归->权重估计,选入需要分析的变量,在进行了上节普通最小二乘法并保存变量后,将Res_1选入权重变量,如图:
输出结果:
2.自相关性
在实际问题的研究中,还会遇到变量在时序上出现相关的情况,这种情况被称为自相关性。
自相关性产生的原因:
- 模型设定的偏误
在设定时,遗漏了关键变量,或采用了错误的回归形式,造成了不能完全回归的部分被归到误差项内。 - 经济变量的滞后性
比如物价指数、国民收入、居民消费等,都会对后期的值产生一定影响,这是这些经济变量本身所具有的性质。 - 数据处理
有些数据处理方法会通过已知数据生成未知数据,由此造成了自相关性。
后果:
在变量的显著性检验中,统计量是建立在方差正确估计的基础上的。由于序列相关,估计的参数方差就会出错,从而导致变量的显著性检验失去意义。
相关性的检验:
同异方差性检验一样,相关性检验也被分为图示法和定量检验。
- 时间残差图
先用最小二乘法估计回归模型参数,求出残差,按照时间顺序绘制残差项的图形。如果残差分布具有明显和圆润的线性分布图像, 说明自相关性存在的可能性很高。反之, 无规则波动大的分布图像显示出相关性微弱。如图:图片来源于:自相关性百度百科
- 德宾-瓦森检验法(DW检验)
步骤:分析->回归->线性,选入需要分析的变量,再点击Statistics
,选择下方的“Durbin-Watson”选项,如图:
输出结果:
输出DW=2.053
注:DW=4,完全负相关;DW=(2,4),负相关;DW=2,完全不相关;DW=(0,2),正相关;DW=0,完全正自相关
因为2.053接近2,因此可视作该样本间无自相关。
相关性的处理方法:
如果模型被检验证明存在自相关性,则需要发展新的方法估计模型。最常用的是广义差分法,即用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型,接着再进行普通最小二乘法进行估计。
为此,要在广义差分法之前利用德宾两步法对自相关性进行修正。
3.多重共线性
研究实际问题是,解释变量常有多个,而变量之间完全不相关的情形是非常少见的。当变量之间具有较强相关性时,认为违背了多元线性回归模型基本假设。
多重共线性的检验:
步骤:分析->回归->线性,选入需要分析的变量,再点击Statistics
,选择右侧的“共线性诊断”选项,如图:
输出结果:
注:特征根(Eigenvalue):多个维度特征根约为0证明存在多重共线性;条件指数(Condition Index):大于10时提示我们可能存在多重共线性
由上表可知,VIF1、VIF2、VIF3、VIF4均远大于10,说明简单采用Enter法强制输入的回归方程存在严重的多重共线性。
表二中特征值和条件指数再次说明了这一点。
多重共线性的处理方法:
- 方法一:剔除不重要的解释变量。利用逐步回归的方法,剔除方差扩大因子最大的变量,直到回归方程中不再存在严重的多重共线性。
- 方法二:当变量数不够,不能选择剔除变量时,可以增大样本容量。尽量使样本容量远大于自变量个数。