机器学习面试之偏差方差

在机器学习的面试中，能不能讲清楚偏差方差，经常被用来考察面试者的理论基础。偏差方差看似很简单，但真要彻底地说明白，却有一定难度。比如，为什么KNN算法在增大k时，偏差会变大，但RF增大树的数目时偏差却保持不变，GBDT在增大树的数目时偏差却又能变小。本文的目的就是希望能对偏差方差有一个科学的解读，欢迎大家多多交流。

1、引子

假设我们有一个回归问题，我们搞到一批训练数据D，然后选择了一个模型M，并用数据D将M训练出来，记作Mt，这里我们故意把模型M与训练出的模型Mt区分开，是为了后面叙述时概念上的清晰。现在，我们怎么评价这个模型的好坏呢？

你可能会不屑地说，这么简单的问题还用问吗，当然是用test集来测试啊。

哈哈！你上当了！

因为我并没有说明是评价模型M的好坏还是模型Mt的好坏！这二者有什么区别呢？

我们都知道，模型M代表的是一个函数空间，比如模型y=wx+b，若x,y都是实数，w,b为实数参数，则该模型就代表了平面上所有的直线，这所有的直线就是一个函数空间。

同理，y=ax^2+bx+c代表的就是平面上所有的二次曲线，所有的二次曲线组成一个函数空间。当然，所有的直线此时也是二次曲线的特例。

回到上面的问题，Mt实际上是用数据D找到的M代表的函数空间中的一个具体的函数。这话有点绕，不过还是不难理解的。

Mt的表现好坏不能完整地代表M的好坏。

上面这句话有很多内涵，我们一点一点来说明。

2、什么是M的好坏？

以上面的一次函数和二次函数为例，当我们说二次函数比一次函数更好时，我们潜在的含义是说，对于某个我们正要解决的机器学习问题来说，二次函数总体上比一次函数表现更好，我们是在函数空间的层次上来比较的。

而且，还是针对一个具体的机器学习问题来比较的，因为对于不同的机器学习问题，二者哪个更好是不一定的。

Note:在下文中，可以把机器学习问题默想成回归问题，这样便于理解。

这里再次强调，当我们说模型好坏时，隐含有两个含义:

1,比较的是整个函数空间

2,针对某个具体机器学习问题比较

3，怎么比较M的好坏？

我们可以这样做:

1，找一条不变的万能测试样本

在这个具体的机器学习问题中找一条样本x，它的标签为y。在后续的所有训练中都用这条样本做测试集，永远不用作训练集。

2，在测试样本上观察Mt的表现，假设Mt在样本x上的预测值为yt，则y-yt可用来评价Mt的表现好坏。

3，找另外一个训练集D1，训练出Mt1，在测试样本上测试得到yt1，进而得到误差y-yt1，

4，重复第3步多次，直到得到N个具体的模型，和N个yt，N个y-yt。

5，当N足够大时，我们可以这样来评测M的好坏，首先看N个yt的均值ytmean是否等于y，其次，看N个yt相对均值ytmean的方差有多大。

显然，若ytmean=y，说明M学习能力是够的，也就是说，当N趋向无穷大时，N个Mt对x预测的均值能无限接近y。

很多人会有种错觉，感觉任何M都能达到上面的效果，实际上，不是每一个M都有这样的能力的，举个极端的例子，我们假设M1的函数空间中只有一个函数，且对于任何样本的预测值都恒等于y+1，则无论N多大，ytmean都会比y大1的。我们称M1由于学习能力不够所造成的对x的预测误差叫做偏差。

其次，N个yt相对均值ytmean的方差有多大也能从另一个方面揭示M的好坏，举个例子，假设我们有M1,M2两个模型，当N无穷大时，都能使得ytmean等于y。但是M1的预测值是这样分布的(下面圆点代表一个个的预测值)

.....ytmean.....

M2的预测值是这样分布的

. . . .ytmean. . . .

显然，我们会觉得M1比M2更好。你可能会想，N足够大时，二者都能准确地均值到y，这就够了，没必要再比较它们的预测值相对均值的方差。

这样的观点错误的地方是:实践中，我们并不能抽样出D1,D2,D3.......DN个训练集，往往只有一份训练集D，这种情况下，显然，用M1比用M2更有把握得到更小的误差。

4、举例子来说明偏差方差

假设模型是一个射击学习者，D1,D2直到DN就是N个独立的训练计划。

如果一个学习者是正常人，一个眼睛斜视，则可以想见，斜视者无论参加多少训练计划，都不会打中靶心，问题不在训练计划够不够好，而在他的先天缺陷。这就是模型偏差产生的原因，学习能力不够。正常人参加N个训练计划后，虽然也不能保证打中靶心，但随着N的增大，会越来越接近靶心。

假设还有一个超级学习者，他的学习能力特别强，参加训练计划D1时，他不仅学会了瞄准靶心，还敏感地捕捉到了训练时的风速，光线，并据此调整了瞄准的方向，此时，他的训练成绩会很好。

但是，当参加测试时的光线，风速肯定与他训练时是不一样的，他仍然按照训练时学来的瞄准方法去打靶，肯定是打不好。这样产生的误差就是方差。这叫做聪明反被聪明误。

总结一下:学习能力不行造成的误差是偏差，学习能力太强造成的误差是方差。

5、权衡偏差方差

当我们只有一份训练数据D时，我们选的M若太强，好比射手考虑太多风速，光线等因素，学出来的模型Mt在测试样本上表现肯定不好，若选择的M太挫，比如是斜视，也无论如何在测试的样本上表现也不会好。所以，最好的M就是学习能力刚刚好的射手，它能够刚刚好学习到瞄准的基本办法，又不会画蛇添足地学习太多细枝末节的东西。

6、回答本文最初的问题

对于KNN算法，k值越大，表示模型的学习能力越弱，因为k越大，它越倾向于从“面”上考虑做出判断，而不是具体地考虑一个样本近身的情况来做出判断，所以，它的偏差会越来越大。

对于RF，我们实际上是部分实现了多次训练取均值的效果，每次训练得到的树都是一个很强的学习者，每一个的方差都比较大，但综合起来就会比较小。好比一个很强的学习者学习时，刮着西风，它会据此调整自己的瞄准方法，另一个很强的学习者学习时刮着东风，（西风、东风可以理解为不同训练集中的噪声）它也会据此调整自己的瞄准方法，在测试样本时，一个误差向西，一个误差向东，刚好起到互相抵消的作用，所以方差会比较小。但是由于每棵树的偏差都差不多，所以，我们取平均时，偏差不会怎么变化。

为什么说是部分实现了多次训练取均值的效果而不是全部呢？因为我们在训练各棵树时，是通过抽样样本集来实现多次训练的，不同的训练集中不可避免地会有重合的情况，此时，就不能认为是独立的多次训练了，各个训练得到的树之间的方差会产生一定的相关性，训练集中重合的样本越多，则两棵树之间的方差的相关性越强，就越难达成方差互相抵消的效果。

对于GBDT，N棵树之间根本就不是一种多次训练取均值的关系，而是N棵树组成了相关关联，层层递进的超级学习者，可想而知，它的方差一定是比较大的。但由于它的学习能力比较强，所以，它的偏差是很小的，而且树的棵树越多，学习能力就越强，偏差就越小。也就是说，只要学习次数够多，预测的均值会无限接近于目标。简单讲就是GBDT的N棵树实际上是一个有机关联的模型，不能认为是N个模型。

最后编辑于：2020.12.04 08:59:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342