机器学习入门（九）——正则化：L1正则、L2正则

在系列（八）中提到了机器学习最重要就是降低模型的方差，即解决过拟合的问题，其中最重要的一种方法就是模型正则化，通常有L1正则和L2正则。

（演示代码见：https://github.com/eqdward/ML_Algorithms/blob/master/L1_L2_Regulation）

1.0 模型正则化

模型正则化（Regularization），就是通过对算法模型的修正（即降低复杂度），限制参数（即自变量）的规模（数量和幂次数），减少泛化误差（方差）而不是训练误差（偏差）。例如当使用比较复杂的模型比如神经网络，去拟合数据时，很容易出现过拟合现象(训练集表现很好，测试集表现较差)，这会导致模型的泛化能力下降，这时候就需要使用正则化，降低模型的复杂度。

实践中，过于复杂的模型不一定能够模拟结果的真实生成过程，甚至也不包括近似过程。这意味着在建模时就控制模型的复杂程度并不是一个有效的方法，或者说不能很好的找到合适的模型，所以通常做法是构建一个适当正则化的大型（复杂）模型。

正则化的策略包括：通过对模型建立约束和惩罚，使模型偏好与简单化的表达（奥卡姆剃刀原理的应用），即模型复杂则对其处罚。其他形式的正则化如集成的方法，即结合多个假说解释训练数据。

2.0 L1正则化和LASSO回归

L1正则化就是在损失函数中加了L1范数这一项，而使用L1正则化的模型叫做LASSO回归，中文常叫套索回归。

2.1 LASSO回归

以线性回归为例：线性回归中为了确定最终的模型参数采用的是求损失函数最小，为了避免数据数量增加带来的方差增大选择了均方差MSE作为损失函数，如下式： $J(\theta)= \sum_{1}^m (y^{(i)} - \theta _0 - \theta _1X_1^i - \theta _2X_2^i...- \theta _nX_n^i)^2=MSE(y,X;\theta )$

由于数据集本身的大小是固定的，那么当模型过于复杂时，会导致 $\theta$ 的绝对值变大，因此为了限制 $\theta$ 的增大，在损失函数后加入正则化（惩罚项），如下所示：

$J(\theta)= MSE(y,X;\theta )+\alpha \sum_{i=1}^n\vert \theta _{i} \vert$

这样的话，要使损失函数尽可能小就要综合考虑两项，第一项就是均方差MSE，第二项是系数 $\theta_{i}$ 的绝对值，这样就要求在二者之间寻求一个平衡，这就是一种模型正则化的基本原理。该种形式的正则化就是L1正则化，而这也的回归模型被称为“LASSO回归”（Least Absolute Shrinkage and Selection Operator Regression）。

在这里有几个细节需要注意：

（1）系数 $\theta_{i}$ 的取值范围是1～n，即不包含 $\theta_{0}$ 。这是因为 $\theta_{0}$ 不是任何一个参数的系数，只是截距。反映到图形上就是反映了曲线的高低位置，而不决定曲线的趋势，所以模型正则化时不需要考虑。

（2）正则化项前面的系数 $\alpha$ 叫做超参数，含义是让系数 $\theta_{i}$ 尽可能小的程度占整个优化损失函数程度的多少，也可以理解为惩罚项的惩罚力度。

2.2 LASSO回归与稀疏性

LASSO回归的全称是Least Absolute Shrinkage and Selection Operator Regression。这里的selection operator说明LASSO回归包含了特征选择功能。具体来说，就是LASSO回归可以使得模型系数 $\theta_{i}$ 具有稀疏性，即得到的系数矩阵是一个稀疏矩阵。

（注：稀疏性和稀疏矩阵，简单说就是存在很多0。系数结果为系数矩阵，表明只有少数特征（系数为非0）对模型有作用，其他（系数为0）特征即使去掉可以认为对模型没有影响，此时就可以只关注系数是非零值的特征。）

LASSO回归相当于对模型进行了一次特征选择，只留下一些比较重要的特征，提高模型的泛化能力，降低过拟合的可能。

3.0 L2正则化和RIDGE回归

L1正则化的惩罚项采用了求 $\theta_{i}$ 绝对值加和的形式 $\sum_{i=1}^n\vert \theta _{i} \vert$ ，其实可以看做是系数矩阵距离空间原点的曼哈顿距离。既然有曼哈顿距离，自然也有欧式距离 $\sum_{i=1}^n(\theta _{i} )^2$ ，这就是L2正则化的形式。使用L2正则化的模型叫做RIDGE回归，中文名叫岭回归。L2正则化形式如下：

$J(\theta)= MSE(y,X;\theta )+\alpha \sum_{i=1}^n(\theta _{i} )^2$

需要注意的是，L2与L1的差异性在于不会使系数矩阵稀疏化。L2正则化能够让系数比较小（接近0），但是比较平滑（不等于0），因此不具有稀疏性。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,242评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,769评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,484评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,133评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,007评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,080评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,496评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,190评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,464评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,549评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,330评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,205评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,567评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,889评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,160评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,475评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,650评论 2赞 335