最简单的回归模型-线性回归及其变体_chapter6

一、在建立线性回归模型之前需要考虑的:

  • 1、数据预处理:线性回归是最简单的回归模型,模型具有很好的可解释性,因而广泛应用于医学统计建模领域。但由于其应用条件的限制,使得应用此方法建模时,在数据预处理阶段需要做一些针对性的考量。

    • 1.1 预测变量(特征)的共线性问题
    • 共线性问题的诊断:相关性热图、PCA(有多少个占据主要方差的主成分,即意味着有多少组共线性的变量)、方差膨胀因子(VIF)

    • 共线性问题的处理:《应用预测建模》P33提供的方法直接进行变量删除;降维(如PCA,在这之前还要进行偏度变换和中心化及标准化);含降维的回归算法:elastic net族算法:含LASSO/ridge;能够应对变量共线性的模型:偏最小二乘(PLS)、Random Forest等

    • 1.2 离群值的影响:一个离群值可能极大程度改变直线的走向
    • 解决方法包括:1. 剔除离群值 2.采用SSE之外的损失函数,如残差绝对值

  • 2、模型性能问题:毕竟是一个线性模型,只能做线性拟合,其参数矩阵的形变能力是有限的。书中说到“显然,如果数据具有曲线或非线性的结构,回归模型将无法刻画这些特性”

    • 2.1 诊断:判断响应变量与预测变量间关系的可视化方法是图5-3所示的“基本诊断图”:如果预测值与残差的关系是曲线,则可能无法采用线性模型。
    • 2.2 治疗:如果响应变量与预测变量间的非线性关系容易识别,可以通过往线性模型中添加二次项、三次项或者多次项来解决,则可以继续应用线性模型;否则应采用更为复杂的、非线性的算法
  • 3、数据分割与重抽样造成的问题

  • 如果有100个样本,75个特征(此时样本数大于特征数,全部用于建模是ok的);但如果进行2:1交叉验证,训练集67*75;测试集 33:75,就会出现特征数大于样本数的问题,此时应在训练和测试时考虑特征降维

二、线性回归模型及其变体

  • 1. 线性回归模型:无需调参,只需要在建模前考虑好上述问题即可

  • 2. 偏最小二乘回归(Partial least squares regression,PLS regression,简称PLS):是在应用PCA降维方法的同时使得降维得到的主成分还要与响应变量的相关系数达到最大。

    • 换言之,PLS不等同于PCA之后再进行线性回归;后者两步骤是割裂的,PCA的时候,仅考虑使得样本方差最大化的主成分,至于所得主成分是否与响应变量具有足够的联系,则没有纳入考量;PCA之后再进行线性回归,有可能所得到的主成分与响应变量之间没有足够联系,因而导致建模失败;PLS则是PCA与线性回归一体化;同时考虑样本方差最大化和所得主成分与响应变量的相关性,在二者之间取得平衡。
    • PLS有一个调优参数,即需要保留的成分数,通过数据分割重抽样来进行调参
    • PLS 能够计算变量的重要性系数(VIP):VIP值越大,该变量对于响应变量的重要性就越大;通常以1为cutoff,大于1认为该变量是有用的
  • 3. PLS算法的演变:演变的目的,是要解决PLS算法在面对样本量(n)和特征数(p)增大的场景下,其运算效率降低、对运算内存要求增大。因此为了简化运算,提升效率而提出了PLS的如下变体:

n>>p

- 3.1 将PLS的步骤分解为三个步骤:一个维度为P * P的“核”矩阵,预测变量的协方差矩阵(P * P ),以及预测变量与响应变量的协方差矩阵(P*1);这种类似于矩阵分解的算法提升了运算效率,包括de Jong 和 Ter Braak1994;Dayal和MacGregor 1997所提出的算法

- 3.2 将目标转化为“在预测变量空间中寻找潜在的正交变量,使其最大化与响应变量的协方差”;这一视角的转变使得目标转化为了缩减预测变量与响应变量之间的协方差矩阵(P*1),即SIMPLS

p>n: Rannar 1994

当然,PLS算法无论如何改进,其仍然是对原始预测变量空间进行线性变换得到其子空间,进而与响应变量进行关联;如果预测变量空间与响应变量之间原本就具有的是“非线性相关/关联”,那这是PLS或者所有线性回归家族算法无法逾越的障碍。只能借助于非线性算法来解决问题。

  • 4. 惩罚线性回归:加入惩罚项的目的是限制单个特征的系数过大:加入惩罚项后的作用是当系数值只有在成比例地减小SSE的情况下,才可能取得取得很大的值,因而通过这种办法限制了特征系数过大,也可以理解为对特征系数的收缩

最小二乘法回归与各带惩罚项线性回归的公式比较
  • 4.1 惩罚参数λ变化对RMSE的影响
  • 惩罚参数λ从0开始增加的过程中,特征系数逐渐减小,此过程中,模型方差逐步减小,此时偏差受影响较小,因而RMSE逐步减少;到达临界值后,方差已经被控制得很好,而特征系数过分收缩带来模型偏差过大(即欠拟合),故RMSE增大。
    岭回归中λ参数与RMSE的关系
  • 4.2 LASSO、Ridge、ElasticNetwork的比较
    • LASSO能够使得某些特征系数为零,即内嵌了“特征选择”功能,Ridge不具备特征选择的功能
    • 弹性网络包含了LASSO和Ridge,因而同步具有Ridge的特征和LASSO筛选特征的功能;分别将λ1和λ2设为0即可将其转换为LASSO和Ridge中的任一;因而有些R包也是将LASSO和Ridge蕴含在了弹性网络算法包中
    • 要注意的是,书中提到的弹性网络参数是\color{blue}{λ1、λ2};但实际的R包中弹性网络的参数则是\color{red}{α、λ}
      R包中弹性网络算法的损失函数及参数)
    • Lasso回归(α = 1: );岭回归(α = 0);弹性网络回归(α ~(0,1)
  • 4.3 LASSO结果判读:两幅图虽然方向相反,但横坐标含义本质是相同的:λ越大,即惩罚参数越大,所剩的特征越少,当前解的个数相对于完全最小二乘解的比例(fraction of full solution)越小
image.png
image.png
  • 4.4 LASSO的扩展
  • LASSO的思想最开始用于线性回归,称之为LASSO回归。但这种惩罚方式及其内嵌的特征选择功能,并不仅限于线性回归中,可以扩展到其他算法中,如线性判别分析、PLS以及PCA。其中的一项重大拓展是Efron等于2004年提出的“最小角回归”,即\color{red} { LARS}

参考文献

R的glmnet和caret分别实现ElasticNetwork、LASSO、Ridge
R包ElasticNetwork算法原理和实现
LASSO、Ridge、ElasticNetwork的对比和适应证

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容

  • 总结 线性回归是有监督学习里最常见也是最简单的一种形式,可以分为一元线性回归和多元线性回归,适用情况为是连续型数据...
    忘词x阅读 2,737评论 0 0
  • 《精通机器学习:基于R 第二版》学习笔记 1、单变量线性回归 1.1 散点图,可以看到前后有两个明显的离群点 1...
    wonphen阅读 1,353评论 0 10
  • 在统计学10-回归一文中介绍了一元线性回归的概念。假设我们现在有多个解释变量,如何构造多元线性回归模型呢? 第一个...
    赵阳_c149阅读 1,656评论 0 7
  • R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整。这里结合Statistical Le...
    真依然很拉风阅读 64,290评论 1 64
  • 1、OLS线性回归的基本原则 最优拟合曲线应该使各点到直线的距离的平方和(即残差平方和,简称RSS)最小。 2、O...
    wonphen阅读 1,528评论 0 2