回归系列之线性回归的关键问题

如上篇文章, 岭回归、Lasso回归和ElasticNet 回归都是以普通的线性回归为基础,先列举下线性回归的模型公式:

线性回归模型公式

岭回归为解决共线性问题,Lasso回归是为解决变量选择的问题, ElasticNet 解决不一致性和group select的问题。简单来说这三个回归算法是对线性回归某些问题的优化。

本文旨在列举线性回归涉及的关键问题, 后续文章针对每个点进行详细介绍。

  • 模型系数的求解方法
  • 拟合问题
  • 变量选择
  • 正则化

1.系数的求解方法

线性回归求解过程其实是求线性回归函数的W系数。求解系数的常见方法包括:最小二乘法和梯度下降法。

  • 最小二乘法
    最小二乘法是通过建立等价关系找到全局最小值, 通过推导, 可得到如下公式:
W系数求解公式

由于最小二乘法直接进行矩阵运算(求逆等),尽管可以得到全局最优解。但是在数据很多场景的回归分析或预测问题,其计算效率较低(涉及超大矩阵的求逆运算)。

  • 梯度下降法
    梯度下降法作为迭代法的一种,先给定一个参数向量初始值,然后向目标函数下降最快的方向调整(即梯度方向),在若干次迭代之后找到全局最小。随机梯度下降法的一个缺点是:在接近极值时收敛速度变慢,并且该方法对初始值的选取比较敏感。

2. 拟合问题

预测模型通常存在过拟合和欠拟合两种极端情况。 欠拟合是只得到的线性模型不能很好的拟合或者表示训练数据。 过拟合是指线性模型能非常准确的拟合训练数据, 但是对新的预测数据不能很好的拟合或者表示。以最小二乘法为例,如果响应变量和预测变量之间有比较明显的线性关系,最小二乘回归会有很小的偏倚,如果观测数量n远大于预测变量p时,最小二乘回归也会有较小的方差。但是如果n和p比较接近,则容易产生过拟合;如果n<p,最小二乘回归得不到有意义的结果。

通常解决过拟合问题, 采用的方法就是:通过变量选择来减少变量数目, 以及正则化。

3. 变量选择

线性回归的模型,经常有自变量和与部分因变量是无关的,又有些自变量之间本身就是明显相关(即共线性问题), 这些问题会增加模型的复杂性,以及模型的解释能力。针对这问题, 引入变量选择,或者叫特征选择。
变量的选择方法有:

  • 子集选择 包括逐步回归和最优子集法等,对可能的部分子集拟合线性模型,利用判别准则 (如AIC,BIC,Cp,调整R2 等)决定最优的模型。
  • 收缩方法(shrinkage method) 收缩方法又称为正则化(regularization)。主要是岭回归(ridge regression)和lasso回归。岭回归可以解决共线性问题。Lasso使某些系数的估计为0,达到去除变量的效果。
  • 降维 主成分回归(PCR)和偏最小二乘回归(PLS)的方法。把p个预测变量投影到m维空间(m<p),利用投影得到的不相关的组合建立线性模型。

4 正则化

为解决过拟合问题,回归模型可在损失函数的后面加上一个约束条件从而限制模型的复杂度,这个约束条件即为正则化。线性回归的L1正则与L2正则:
岭回归L2范式:


岭回归L2正则

Lasso回归L1范式:

Lasso回归L1正则

如下图,假设存在一个二元预测模型x = (x1, x2),对应存在两个系数w=(w1, w2)。 左边图是Lasso回归, 右边表示的是岭回归图。等高线的红色椭圆形是最小二乘法的误差项(或者损失函数,等高线是指误差项取值相同的点的连线), 蓝色部分是惩罚项(正则化项)的约束条件:Lasso是||Beta1|| + ||Beta2|| < t, 图形如左边, 岭回归的惩罚项是||Beta1||^2 + ||Beta2||^2 < t,如右边蓝色圆圈。

L1和L2正则化

加入正则化后模型求得的系数解w的值, 一定是在损失函数项和正则化项之间,即出现在图中损失函数项等值线与正则化项等值线相交处。采用L1范数时误差项的等值线与惩罚项等值线的交点出现在(参数空间)坐标轴上,即w1或w2为0;而在采用L2范数时,两个等值线的相交点常出现在某个象限内(如图示第2象限),即w1或w2均非0。因此Lasso具有选择变量的作用。

PS: 惩罚项中还存在一个参数,是lambda, 这是一个可调参数。求这个参数常见方法时:交叉验证或者Cp准则。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容