Python 多重共线性计算 statsmodels模块

1. 起因

在回归分析时，我们可能会遇到自变量的回归系数与常识相反的情况，这种情况下，可以检查下自变量间是否存在多重共线性的问题。又或者，回归分析统计量显示存在多重共线性（比如conditional number过大），也可能意味着存在多重共线性。（但有时单变量回归，还会提示conditional number很大，这种只是与解释变量的缩放有关，参见单变量（一元线性）回归，结果显示存在多重共线性）

2. 什么是多重共线性

顾名思义，共线性是指两个变量间一个变量可以表示为另一个变量的线性组合；而多重共线性指的就是针对多元线性回归，自变量间存在一个变量可以表示为多个变量的线性组合的情况。

3. 多重共线性有什么影响

降低回归系数估计量的可靠度。最小二乘法得到的估计量是基于变量间的相关性矩阵的，当变量间的相关性过高时，将影响变量的方差估计，进而影响 t 统计量，降低参数估计的可信度。
回归系数的解释性含义受影响。对回归分析进行解释时，我们通常的表述是，在控制其他变量不变的情况下， $x$ 对 $y$ 存在什么影响。但由于自变量间的相关性存在（比如 $x_1, x_2$ ），是无法控制 $x_1$ 不变而 $x_2$ 变化的，即不能剥离出变量的独立影响。
变量显著性与否的影响。前面所说，t 统计量的计算是基于变量的方差的，方差又是依赖相关性矩阵的。多重共线性使得变量的方差变大，进而使得t值变小，可能使得变量不再显著，这点是最关键的。

总而言之，影响可能是本身非常关键的变量不再显著，明显是正向影响的变量结果反而为负。举个简单例子，以长胖作为因变量( $y$ )，吃肉和吃米饭作为自变量( $x_1, x_2$ )，可以表达为 $y = x_1 + x_2$ ，但由于我们吃肉和吃米饭之间存在非常高的相关性，可能估计得到的结果为 $y = 3x_1 - x_2$ ，结果发现吃米饭不长胖。这个时候就要注意多重共线性了。

4. 怎么识别多重共线性

除了回归模型的提示如The condition number is large, 1.42e+04. This might indicate that there are strong multicollinearity or other numerical problems.，还需要自动检测，主要包括方差膨胀因子（ variance inflation factor, VIF）和相关性系数。容差值为VIF的倒数，二者等价，不列出了。

方差膨胀因子（VIF）。VIF越大，相关性越强。一般认为VIF超过10就过大，也有严格的认为是5。我之前论文中找到过7.5的参考文献。具体可视情况而定，不影响上述大局即可。VIF的计算方法是 $VIF_i = 1 / (1 - R_i^2)$ ，其中 $R_i$ 是第 i 个变量与其他全部变量的复相关系数（ $R_i^2$ 是拿变量 $X_i$ 做因变量，对其他所有变量做一个新的回归得到的可决系数，具体复杂的数学推导可参见方差膨胀因子的数学本质）。
相关系数。这个就是VIF计算的本质，也是多重共线性的字面理解意思。对所有自变量绘制相关性矩阵图，尤其注重那些相关系数超过0.7的变量，后续可以进行合并或者删除的操作。

5. 如何计算方差膨胀因子（VIF）

相关性就不说了，下面利用statsmodels模块计算VIF，具体函数是variance_inflation_factor，官方文档参见statsmodels.stats.outliers_influence.variance_inflation_factor，statmodels模块说如果VIF大于5，就证明改变量与其他的存在共线性了。

重点：在利用Python的statmodels模块调用variance_inflation_factor计算时，一定要加常数项，不然VIF都会很大，参见Python计算方差膨胀因子VIF的对比测试。

计算代码为：

# 计算方差膨胀因子
def check_vif():
    input_path = "E:\\Data\\"
    df = pd.read_csv(input_path + 'data.csv', header=0, encoding='gbk')
    df = df.drop(['y'], axis=1)  # 删除多余变量，包括因变量
    df = df.dropna(axis=0, how='any')  # 删除带有任何空值的行
    df['const'] = 1  # 添加常数项，这个是重点
    x = np.array(df)
    vif_list = [variance_inflation_factor(x, i) for i in range(x.shape[1])]
    df_vif = pd.DataFrame({'variable': list(df.columns), 'vif': vif_list})
    df_vif = df_vif[~(df_vif['variable'] == 'const')]   # 删除常数项
    print(df_vif)

输出结果即可查看各个变量对应的多重共线性了。耶。

6. 如何解决多重共线性

变量删减。如查看相关性系数矩阵可以看出，某一个变量如果与其他变量的相关性系数很高（大于0.7等），可进行变量删除。删除之后再去计算VIF进行判断。
变量融合。比如对于第二产业产值和第三产业产值，二者相关性很高，可以合并为一个二三产业产值一个变量，且意义仍然存在。
增加样本容量，减小参数估计量的方差。这个一般不太可行。
逐步回归。可以让系统自动识别出对Y有显著影响的X变量，基本思想是将变量逐个引入模型，每引入一个解释变量都要确保模型显著性（F检验）和原始解释变量的显著性（t检验），如果引入后模型不显著则不再引入，确保引入解释变量后各个变量都是显著的。这也是进行反复回归，寻找最优的解释变量集合。
岭回归。上述方法不可行时，可采用更科学的方法即岭回归（在回归模型后面加上惩罚项）。岭回归（ridge regression）是一种专用于共线性数据分析的有偏估计回归方法，是一种改良的最小二乘法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。（此处来源百科百科）。这种方法也更科学一些，不用删减牺牲变量。

7. 小结

构建回归模型本身就存在一些探索性的步骤，不可能一蹴而就。除了考虑变量之间的共线性进行变量选择，更重要的是，我们要明白为什么选择特定变量，这些变量对被解释变量的作用机制是什么，这个是回归分析中更为关键的问题。

其他

关于VIF的其他一些英文解释，读起来更明白。

# 什么是VIF
    The variance inflation factor is a measure for the increase of the
    variance of the parameter estimates if an additional variable, given by
    exog_idx is added to the linear regression. It is a measure for
    multicollinearity of the design matrix, exog.

    One recommendation is that if VIF is greater than 5, then the explanatory
    variable given by exog_idx is highly collinear with the other explanatory
    variables, and the parameter estimates will have large standard errors
    because of this.

# 如何计算的
    Assume we have a list of exogenous variable [X1, X2, X3, X4].
    To calculate the VIF and Tolerance for each variable, we regress
    each of them against other exogenous variables. For instance, the
    regression model for X3 is defined as:
                        X3 ~ X1 + X2 + X4
    And then we extract the R-squared from the model to calculate:
                    VIF = 1 / (1 - R-squared)
                    Tolerance = 1 - R-squared
    The cutoff to detect multicollinearity:
                    VIF > 10 or Tolerance < 0.1

参考资料：
方差膨胀因子的数学本质，与皮尔逊相关系数的关系：https://www.zhihu.com/question/270451437
影响有哪些：https://zhuanlan.zhihu.com/p/56793236

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,468评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,620评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,427评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,160评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,197评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,334评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,775评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,444评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,628评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,459评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,508评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,210评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,767评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,850评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,076评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,627评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,196评论 2赞 341