1. 起因
在回归分析时,我们可能会遇到自变量的回归系数与常识相反的情况,这种情况下,可以检查下自变量间是否存在多重共线性的问题。又或者,回归分析统计量显示存在多重共线性(比如conditional number过大),也可能意味着存在多重共线性。(但有时单变量回归,还会提示conditional number很大,这种只是与解释变量的缩放有关,参见单变量(一元线性)回归,结果显示存在多重共线性)
2. 什么是多重共线性
顾名思义,共线性是指两个变量间一个变量可以表示为另一个变量的线性组合;而多重共线性指的就是针对多元线性回归,自变量间存在一个变量可以表示为多个变量的线性组合的情况。
3. 多重共线性有什么影响
- 降低回归系数估计量的可靠度。最小二乘法得到的估计量是基于变量间的相关性矩阵的,当变量间的相关性过高时,将影响变量的方差估计,进而影响 t 统计量,降低参数估计的可信度。
- 回归系数的解释性含义受影响。对回归分析进行解释时,我们通常的表述是,在控制其他变量不变的情况下, 对 存在什么影响。但由于自变量间的相关性存在(比如),是无法控制 不变而变化的,即不能剥离出变量的独立影响。
- 变量显著性与否的影响。前面所说,t 统计量的计算是基于变量的方差的,方差又是依赖相关性矩阵的。多重共线性使得变量的方差变大,进而使得t值变小,可能使得变量不再显著,这点是最关键的。
总而言之,影响可能是本身非常关键的变量不再显著,明显是正向影响的变量结果反而为负。举个简单例子,以长胖作为因变量(),吃肉和吃米饭作为自变量(),可以表达为 ,但由于我们吃肉和吃米饭之间存在非常高的相关性,可能估计得到的结果为,结果发现吃米饭不长胖。这个时候就要注意多重共线性了。
4. 怎么识别多重共线性
除了回归模型的提示如The condition number is large, 1.42e+04. This might indicate that there are strong multicollinearity or other numerical problems.
, 还需要自动检测,主要包括方差膨胀因子( variance inflation factor, VIF)和相关性系数。容差值为VIF的倒数,二者等价,不列出了。
方差膨胀因子(VIF)。VIF越大,相关性越强。一般认为VIF超过10就过大,也有严格的认为是5。我之前论文中找到过7.5的参考文献。具体可视情况而定,不影响上述大局即可。VIF的计算方法是,其中是第 i 个变量与其他全部变量的复相关系数(是拿变量做因变量,对其他所有变量做一个新的回归得到的可决系数,具体复杂的数学推导可参见方差膨胀因子的数学本质)。
相关系数。这个就是VIF计算的本质,也是多重共线性的字面理解意思。对所有自变量绘制相关性矩阵图,尤其注重那些相关系数超过0.7的变量,后续可以进行合并或者删除的操作。
5. 如何计算方差膨胀因子(VIF)
相关性就不说了,下面利用statsmodels模块计算VIF,具体函数是variance_inflation_factor
,官方文档参见statsmodels.stats.outliers_influence.variance_inflation_factor,statmodels模块说如果VIF大于5,就证明改变量与其他的存在共线性了。
重点:在利用Python的statmodels模块调用variance_inflation_factor计算时,一定要加常数项,不然VIF都会很大,参见Python计算方差膨胀因子VIF的对比测试。
计算代码为:
# 计算方差膨胀因子
def check_vif():
input_path = "E:\\Data\\"
df = pd.read_csv(input_path + 'data.csv', header=0, encoding='gbk')
df = df.drop(['y'], axis=1) # 删除多余变量,包括因变量
df = df.dropna(axis=0, how='any') # 删除带有任何空值的行
df['const'] = 1 # 添加常数项,这个是重点
x = np.array(df)
vif_list = [variance_inflation_factor(x, i) for i in range(x.shape[1])]
df_vif = pd.DataFrame({'variable': list(df.columns), 'vif': vif_list})
df_vif = df_vif[~(df_vif['variable'] == 'const')] # 删除常数项
print(df_vif)
输出结果即可查看各个变量对应的多重共线性了。耶。
6. 如何解决多重共线性
- 变量删减。如查看相关性系数矩阵可以看出,某一个变量如果与其他变量的相关性系数很高(大于0.7等),可进行变量删除。删除之后再去计算VIF进行判断。
- 变量融合。比如对于第二产业产值和第三产业产值,二者相关性很高,可以合并为一个二三产业产值一个变量,且意义仍然存在。
- 增加样本容量,减小参数估计量的方差。这个一般不太可行。
- 逐步回归。可以让系统自动识别出对Y有显著影响的X变量,基本思想是将变量逐个引入模型,每引入一个解释变量都要确保模型显著性(F检验)和原始解释变量的显著性(t检验),如果引入后模型不显著则不再引入,确保引入解释变量后各个变量都是显著的。这也是进行反复回归,寻找最优的解释变量集合。
- 岭回归。上述方法不可行时,可采用更科学的方法即岭回归(在回归模型后面加上惩罚项)。岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计回归方法,是一种改良的最小二乘法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。(此处来源百科百科)。这种方法也更科学一些,不用删减牺牲变量。
7. 小结
构建回归模型本身就存在一些探索性的步骤,不可能一蹴而就。除了考虑变量之间的共线性进行变量选择,更重要的是,我们要明白为什么选择特定变量,这些变量对被解释变量的作用机制是什么,这个是回归分析中更为关键的问题。
其他
关于VIF的其他一些英文解释,读起来更明白。
# 什么是VIF
The variance inflation factor is a measure for the increase of the
variance of the parameter estimates if an additional variable, given by
exog_idx is added to the linear regression. It is a measure for
multicollinearity of the design matrix, exog.
One recommendation is that if VIF is greater than 5, then the explanatory
variable given by exog_idx is highly collinear with the other explanatory
variables, and the parameter estimates will have large standard errors
because of this.
# 如何计算的
Assume we have a list of exogenous variable [X1, X2, X3, X4].
To calculate the VIF and Tolerance for each variable, we regress
each of them against other exogenous variables. For instance, the
regression model for X3 is defined as:
X3 ~ X1 + X2 + X4
And then we extract the R-squared from the model to calculate:
VIF = 1 / (1 - R-squared)
Tolerance = 1 - R-squared
The cutoff to detect multicollinearity:
VIF > 10 or Tolerance < 0.1
参考资料:
方差膨胀因子的数学本质,与皮尔逊相关系数的关系:https://www.zhihu.com/question/270451437
影响有哪些:https://zhuanlan.zhihu.com/p/56793236