Python 多重共线性计算 statsmodels模块

1. 起因

在回归分析时,我们可能会遇到自变量的回归系数与常识相反的情况,这种情况下,可以检查下自变量间是否存在多重共线性的问题。又或者,回归分析统计量显示存在多重共线性(比如conditional number过大),也可能意味着存在多重共线性。(但有时单变量回归,还会提示conditional number很大,这种只是与解释变量的缩放有关,参见单变量(一元线性)回归,结果显示存在多重共线性

2. 什么是多重共线性

顾名思义,共线性是指两个变量间一个变量可以表示为另一个变量的线性组合;而多重共线性指的就是针对多元线性回归,自变量间存在一个变量可以表示为多个变量的线性组合的情况。

3. 多重共线性有什么影响

  • 降低回归系数估计量的可靠度。最小二乘法得到的估计量是基于变量间的相关性矩阵的,当变量间的相关性过高时,将影响变量的方差估计,进而影响 t 统计量,降低参数估计的可信度。
  • 回归系数的解释性含义受影响。对回归分析进行解释时,我们通常的表述是,在控制其他变量不变的情况下,xy 存在什么影响。但由于自变量间的相关性存在(比如x_1, x_2),是无法控制x_1 不变而x_2变化的,即不能剥离出变量的独立影响。
  • 变量显著性与否的影响。前面所说,t 统计量的计算是基于变量的方差的,方差又是依赖相关性矩阵的。多重共线性使得变量的方差变大,进而使得t值变小,可能使得变量不再显著,这点是最关键的。

总而言之,影响可能是本身非常关键的变量不再显著,明显是正向影响的变量结果反而为负。举个简单例子,以长胖作为因变量(y),吃肉和吃米饭作为自变量(x_1, x_2),可以表达为 y = x_1 + x_2,但由于我们吃肉和吃米饭之间存在非常高的相关性,可能估计得到的结果为y = 3x_1 - x_2,结果发现吃米饭不长胖。这个时候就要注意多重共线性了。

4. 怎么识别多重共线性

除了回归模型的提示如The condition number is large, 1.42e+04. This might indicate that there are strong multicollinearity or other numerical problems., 还需要自动检测,主要包括方差膨胀因子( variance inflation factor, VIF)和相关性系数。容差值为VIF的倒数,二者等价,不列出了。

  • 方差膨胀因子(VIF)。VIF越大,相关性越强。一般认为VIF超过10就过大,也有严格的认为是5。我之前论文中找到过7.5的参考文献。具体可视情况而定,不影响上述大局即可。VIF的计算方法是VIF_i = 1 / (1 - R_i^2),其中R_i是第 i 个变量与其他全部变量的复相关系数(R_i^2是拿变量X_i做因变量,对其他所有变量做一个新的回归得到的可决系数,具体复杂的数学推导可参见方差膨胀因子的数学本质)。

  • 相关系数。这个就是VIF计算的本质,也是多重共线性的字面理解意思。对所有自变量绘制相关性矩阵图,尤其注重那些相关系数超过0.7的变量,后续可以进行合并或者删除的操作。

5. 如何计算方差膨胀因子(VIF)

相关性就不说了,下面利用statsmodels模块计算VIF,具体函数是variance_inflation_factor,官方文档参见statsmodels.stats.outliers_influence.variance_inflation_factor,statmodels模块说如果VIF大于5,就证明改变量与其他的存在共线性了。

重点:在利用Python的statmodels模块调用variance_inflation_factor计算时,一定要加常数项,不然VIF都会很大,参见Python计算方差膨胀因子VIF的对比测试。

计算代码为:

# 计算方差膨胀因子
def check_vif():
    input_path = "E:\\Data\\"
    df = pd.read_csv(input_path + 'data.csv', header=0, encoding='gbk')
    df = df.drop(['y'], axis=1)  # 删除多余变量,包括因变量
    df = df.dropna(axis=0, how='any')  # 删除带有任何空值的行
    df['const'] = 1  # 添加常数项,这个是重点
    x = np.array(df)
    vif_list = [variance_inflation_factor(x, i) for i in range(x.shape[1])]
    df_vif = pd.DataFrame({'variable': list(df.columns), 'vif': vif_list})
    df_vif = df_vif[~(df_vif['variable'] == 'const')]   # 删除常数项
    print(df_vif)

输出结果即可查看各个变量对应的多重共线性了。耶。

6. 如何解决多重共线性

  • 变量删减。如查看相关性系数矩阵可以看出,某一个变量如果与其他变量的相关性系数很高(大于0.7等),可进行变量删除。删除之后再去计算VIF进行判断。
  • 变量融合。比如对于第二产业产值和第三产业产值,二者相关性很高,可以合并为一个二三产业产值一个变量,且意义仍然存在。
  • 增加样本容量,减小参数估计量的方差。这个一般不太可行。
  • 逐步回归。可以让系统自动识别出对Y有显著影响的X变量,基本思想是将变量逐个引入模型,每引入一个解释变量都要确保模型显著性(F检验)和原始解释变量的显著性(t检验),如果引入后模型不显著则不再引入,确保引入解释变量后各个变量都是显著的。这也是进行反复回归,寻找最优的解释变量集合。
  • 岭回归。上述方法不可行时,可采用更科学的方法即岭回归(在回归模型后面加上惩罚项)。岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计回归方法,是一种改良的最小二乘法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。(此处来源百科百科)。这种方法也更科学一些,不用删减牺牲变量。

7. 小结

构建回归模型本身就存在一些探索性的步骤,不可能一蹴而就。除了考虑变量之间的共线性进行变量选择,更重要的是,我们要明白为什么选择特定变量,这些变量对被解释变量的作用机制是什么,这个是回归分析中更为关键的问题。

其他

关于VIF的其他一些英文解释,读起来更明白。

# 什么是VIF
    The variance inflation factor is a measure for the increase of the
    variance of the parameter estimates if an additional variable, given by
    exog_idx is added to the linear regression. It is a measure for
    multicollinearity of the design matrix, exog.

    One recommendation is that if VIF is greater than 5, then the explanatory
    variable given by exog_idx is highly collinear with the other explanatory
    variables, and the parameter estimates will have large standard errors
    because of this.

# 如何计算的
    Assume we have a list of exogenous variable [X1, X2, X3, X4].
    To calculate the VIF and Tolerance for each variable, we regress
    each of them against other exogenous variables. For instance, the
    regression model for X3 is defined as:
                        X3 ~ X1 + X2 + X4
    And then we extract the R-squared from the model to calculate:
                    VIF = 1 / (1 - R-squared)
                    Tolerance = 1 - R-squared
    The cutoff to detect multicollinearity:
                    VIF > 10 or Tolerance < 0.1

参考资料:
方差膨胀因子的数学本质,与皮尔逊相关系数的关系:https://www.zhihu.com/question/270451437
影响有哪些:https://zhuanlan.zhihu.com/p/56793236

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,468评论 5 473
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,620评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,427评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,160评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,197评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,334评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,775评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,444评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,628评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,459评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,508评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,210评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,767评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,850评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,076评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,627评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,196评论 2 341

推荐阅读更多精彩内容