教你理解机器学习中的各种范数

有监督的机器学习本质是“minimizeyour error while regularizing your parameters”——就是在最小化误差的同时规则化模型的参数。
这句话很重要，是有监督学习的核心！
这句话很重要，你一定要铭记在心！
这句话很重要，记住它就事半功倍！

重要的事情说三遍！！！当你确定记住这句话的时候，你再接下去看下面的内容，不然请再记一次。

所以就是说一个有监督的机器学习就是包含两部分：

监督学习.png

最小化误差是为了让我们的模型可以拟合我们的训练数据；规则化参数是为了防止模型过拟合。同时，规则化参数可以将我们对于模型的先验知识融入到模型当中，强制地让模型具有我们想要的特性，比如说“低秩”，“稀疏”，“平滑”。
为了进一步加深我们对于规则化的理解，我们还可以利用“奥卡姆剃刀”原理。它的思想就是“as simple as possible”，这就是要求我们选择尽可能简单的模型去解释已有的数据。从贝叶斯估计的角度来看，规则化对应于模型的先验概率。

所以，监督学习的目标函数就是：

函数的第二项就是规则化函数。规则化函数有很多的选择，一般是一个关于模型复杂度的递增函数，模型越复杂，规则化函数的值就越大。比如说，规则化函数是模型参数向量的范数。不同规则化函数对于参数W的约束效果是不一样的。常见的规则化函数有零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。下面我们就会详细介绍不同范数的作用。

1⃣️、L0范数和L1范数

L0范数表示的是向量中非0元素的个数。所以如果我们采用L0范数作为规则化函数，就是希望我们的参数是“稀疏”的。但是，绝大多数的论文要实现稀疏都是采用L1范数。
L1范数表示的是向量中各个元素绝对值的和，所以L1范数也叫“稀疏规则算子”（Lasso regularization）。那为什么L1范数可以使参数稀疏呢？一种解释是“它是L0范数的最优凸近似”。另一种更学术的说法是“任何的规则化算子，如果他在Wi=0的地方不可微，并且可以分解为一个“求和”的形式，那么这个规则化算子就可以实现稀疏”，即，L1范数是绝对值，而|w|在w=0处是不可微。
那为什么使用L1范数而不是L0范数？因为求解L0范数是一个NP问题。而且L1范数是L0范数的最优凸近似，它比L0范数要容易优化求解。

image.png

所以，一句话总结：L1范数和L0范数都可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。

2⃣️、L2范数
L2范数： $||\mathbf{W}||_2$ ,它代表的是向量各个元素的平方和然后再求平方根。在回归分析中，又叫“岭回归”（Ridge Regression），在其他时候也叫“权值衰减”（weight decay）。L2范数的目标是为了防止“过拟合”。

L1范数和L2范数的差别：
为什么一个是让绝对值最小，一个是让平方最小，会有那么大的不同，我们可以从几何上给出解释：
1）下降速度
2）模型空间的限制
L1和L2规则化的代价函数可以写成下面的形式：

也就是说，我们将模型空间限制在参数

w

的一个norm ball 中。为了便于可视化，我们考虑两维的情况，在(w1, w2)平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解：

可以看到，L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现，而目标函数的测地线除非位置摆得非常好，大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性，例如图中的相交点就有w1=0，而更高维的时候（想象一下三维的L1-ball 是什么样的？）除了角点以外，还有很多边的轮廓也是既有很大的概率成为第一次相交的地方，又会产生稀疏性。

相比之下，L2-ball 就没有这样的性质，因为没有角，所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性，而L2-regularization 不行的原因了。

因此，一句话总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。

3⃣️、核范数
核范数(Nuclear Norm)： $||\mathbf{W}||^*$ 是指矩阵奇异值的和。它的作用是：约束Low-Rank（低秩）。
先回忆一下线性代数里面“秩”到底是啥？
$\left\{\begin{matrix} 𝑥_1−𝑥_2+𝑥_3=5\\ 𝑥_1+𝑥_2+𝑥_3=7\\ 2𝑥_1+2𝑥_2+2x_3=14 \end{matrix}\right.$
对上面的线性方程组，第一个方程和第二个方程有不同的解，而第2个方程和第3个方程的解完全相同。从这个意义上说，第3个方程是“多余”的，因为它没有带来任何的信息量，把它去掉，所得的方程组与原来的方程组同解。为了从方程组中去掉多余的方程，自然就导出了“矩阵的秩”这一概念。

所以，秩可以度量相关性，而矩阵的相关性实际上有带有了矩阵的结构信息。如果矩阵之间各行的相关性很强，那么就表示这个矩阵实际可以投影到更低维的线性子空间，也就是用几个向量就可以完全表达了，它就是低秩的。所以我们总结的一点就是：如果矩阵表达的是结构性信息，例如图像、用户-推荐表等等，那么这个矩阵各行之间存在这一定的相关性，那这个矩阵一般就是低秩的。

如果X是一个m行n列的数值矩阵，rank(X)是X的秩，假如rank (X)远小于m和n，则我们称X是低秩矩阵。低秩矩阵每行或每列都可以用其他的行或列线性表出，可见它包含大量的冗余信息。利用这种冗余信息，可以对缺失数据进行恢复，也可以对数据进行特征提取。

好了，低秩有了，那约束低秩就是约束rank(w)呀，和我们这节的核范数有什么关系呢？他们的关系和L0与L1的关系一样。因为rank()是非凸的，在优化问题里面很难求解，那么就需要寻找它的凸近似来近似它了。对，你没猜错，rank(w)的凸近似就是核范数 $||\mathbf{W}||^*$ 。

4⃣️、规则化参数的选择

我们现在再看一下我们的目标函数:
$w^{*}=arg⁡min⁡_𝑤\sum_{i}𝐿(𝑦_𝑖,𝑓(𝑥_𝑖;𝑤))+𝜆Ω(𝑤)$
上面式子中除了最小化误差loss和规则项两块以外，还有一个参数 $𝜆$ 。它也有个霸气的名字，叫hyper-parameters（超参）。它主要是平衡loss和规则项这两项的，λ越大，就表示规则项要比模型训练误差更重要，也就是相比于要模型拟合我们的数据，我们更希望我们的模型能满足我们约束的Ω(w)的特性。论文提出的模型是否具有hyper-parameters？论文给出了它们的实验取值了吗？经验取值还是经过交叉验证的取值？这个问题是逃不掉的，因为几乎任何一个问题或者模型都会具有hyper-parameters，有时候调整一下这个参数找到最合适的数值就是一件很开心的事情。努力做个“调参”高手吧！祝愿大家都能“调得一手好参”！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

教你理解机器学习中的各种范数

推荐阅读更多精彩内容