总结：Bias(偏差)，Error(误差)，Variance(方差)及CV(交叉验证)

前言

此片有很多别人的东西，直接搬过来了，都有注释，里面也有一些自己的理解和需要注意的地方，以此记录一下，总结如下，思想不够成熟，以后再补充，如有错误请不吝指正

犀利的开头

在机器学习中，我们用训练数据集去训练(学习)一个model(模型)，通常的做法是定义一个Loss function（误差函数），通过将这个Loss(或者叫error)的最小化过程，来提高模型的性能(performance)。然而我们学习一个模型的目的是为了解决实际的问题（或者说是训练数据集这个领域(field)中的一般化问题)，单纯地将训练数据集的loss最小化，并不能保证在解决更一般的问题时模型仍然是最优，甚至不能保证模型是可用的。这个训练数据集的loss与一般化的数据集的loss之间的差异就叫做generalization error=bias+variance。

作者：路小墨
链接：https://www.zhihu.com/question/27068705/answer/82132134
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

Error = Bias^2 + Variance+Noise

什么是Bias(偏差)

Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，即算法本身的拟合能力

什么是Variance(方差)

Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。反应预测的波动情况。

什么是Noise(噪声)

这就简单了，就不是你想要的真正数据，你可以想象为来破坏你实验的元凶和造成你可能过拟合的原因之一，至于为什么是过拟合的原因，因为模型过度追求Low Bias会导致训练过度，对测试集判断表现优秀，导致噪声点也被拟合进去了

简单的例子理解Bias和Variance

开枪问题

想象你开着一架黑鹰直升机，得到命令攻击地面上一只敌军部队，于是你连打数十梭子，结果有一下几种情况:

1.子弹基本上都打在队伍经过的一棵树上了，连在那棵树旁边等兔子的人都毫发无损，这就是方差小（子弹打得很集中），偏差大（跟目的相距甚远）。

2.子弹打在了树上，石头上，树旁边等兔子的人身上，花花草草也都中弹，但是敌军安然无恙，这就是方差大（子弹到处都是），偏差大（同1）。

3.子弹打死了一部分敌军，但是也打偏了些打到花花草草了，这就是方差大（子弹不集中），偏差小（已经在目标周围了）。

4.子弹一颗没浪费，每一颗都打死一个敌军，跟抗战剧里的八路军一样，这就是方差小（子弹全部都集中在一个位置），偏差小（子弹集中的位置正是它应该射向的位置）。

作者：刑无刀
链接：https://www.zhihu.com/question/20448464/answer/24397161
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

-再来个射箭问题：假设你在射箭，红星是你的目标，以下是你的射箭结果

这里写图片描述

作者：Jason Gu
链接：https://www.zhihu.com/question/20448464
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

分析：

我们可以看到，在Low Variance的一列，数据分布是非常集中的，恩，小伙子，你的稳定性很好，方差很小，表现的很聚集。而第二列就是High Variance的一列，机智的你可能一下就看出来了，没错，飘来飘去的，非常不稳定！

看下Low Bias这一行，命中红心的次数很多对不对，说明你还是有准头的，至少偏差不算大，我要是裁判，我就不管你没射中几只箭飘到哪去了(方差大，不集中)，毕竟我看的是命中了多少(准确度)，而High Bias这一行，明显可以看出一支箭都没射中，表现很差，偏离目标好远，负分滚粗！

综合起来看，我们需要的模型最好是两个L，又准确又稳定，妥妥的，但是，这个在现实模型中是不会存在的。你只能权衡着来

Bias，Variance和Overfitting(过拟合)，Underfitting(欠拟合)

过拟合，也就是我对训练样本能够百分百命中了，超级拟合了，但是测试时候就掉链子，拟合很差，也就是我们说的泛化性能不好的问题，所以如果太追求在训练集上的完美而采用一个很复杂的模型，会使得模型把训练集里面的噪声都当成了真实的数据分布特征，从而得到错误的数据分布估计。

一句话，过拟合会出现高方差问题

欠拟合：训练样本太少，导致模型就不足以刻画数据分布了，体现为连在训练集上的错误率都很高的现象。

一句话，欠拟合会出现高偏差问题

怎么避免过拟合和欠拟合

避免欠拟合(刻画不够)

寻找更好的特征-----具有代表性的
用更多的特征-----增大输入向量的维度

避免过拟合(刻画太细，泛化太差)

增大数据集合-----使用更多的数据，噪声点比重减少
减少数据特征-----减小数据维度，高维空间密度小
正则化方法-----即在对模型的目标函数（objective function）或代价函数（cost function）加上正则项
交叉验证方法

更多方法详解请看@一只鸟的天空--机器学习中防止过拟合的处理方法

为什么要用交叉验证(Cross-Validation）

1.交叉验证,这是仅使用训练集衡量模型性能的一个方便技术，不用建模最后才使用测试集

2.Cross-validation 是为了有效的估测 generalization error(泛化误差) 所设计的实验方法，而generalization error=bias+variance

首先：bias和variance分别从两个方面来描述了我们学习到的模型与真实模型之间的差距。Bias是 “用所有可能的训练数据集训练出的所有模型的输出的平均值” 与 “真实模型”的输出值之间的差异；Variance则是“不同的训练数据集训练出的模型”的输出值之间的差异。

作者：路小墨
链接：https://www.zhihu.com/question/27068705/answer/82132134
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

可以发现，怎么来平衡Bias和Variance则成了我们最大的任务了，也就是怎么合理的评估自己模型呢？我们由此提出了交叉验证的思想,以K-fold Cross Validation(记为K-CV)为例，基本思想如下：(其他更多方法请看@bigdataage --交叉验证(Cross-Validation))

这里写图片描述

将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的分类准确率的平均数作为此K-CV下分类器的性能指标.K一般大于等于2,实际操作时一般从3开始取,只有在原始数据集合数据量小的时候才会尝试取2. 而K-CV 的实验共需要建立 k 个models，并计算 k 次 test sets 的平均辨识率。在实作上，k 要够大才能使各回合中的训练样本数够多，一般而言 k=10 (作为一个经验参数)算是相当足够了。

看不清上面的就来一幅更简单的

这里写图片描述

每次的training_set 红色， validation_set白色，也就是说k=5的情况了

注意：交叉验证使用的仅仅是训练集！！根本没测试集什么事！很多博客都在误导！

这也就解决了上面刚开始说的Variance(不同训练集产生的差异)，Bias(所有data训练结果的平均值)这两大问题了！因为交叉验证思想集合了这两大痛点，能够更好的评估模型好坏！

说白了，就是你需要用下交叉验证去试下你的算法是否精度够好，够稳定！你不能说你在某个数据集上表现好就可以，你做的模型是要放在整个数据集上来看的！毕竟泛化能力才是机器学习解决的核心

Bias、Variance和K-fold的关系

下面解释一下Bias、Variance和k-fold的关系：k-fold交叉验证常用来确定不同类型的模型（线性、指数等）哪一种更好，为了减少数据划分对模型评价的影响，最终选出来的模型类型（线性、指数等）是k次建模的误差平均值最小的模型。当k较大时，经过更多次数的平均可以学习得到更符合真实数据分布的模型，Bias就小了，但是这样一来模型就更加拟合训练数据集，再去测试集上预测的时候预测误差的期望值就变大了，从而Variance就大了；反之，k较小时模型不会过度拟合训练数据，从而Bias较大，但是正因为没有过度拟合训练数据，Variance也较小。

作者：TANGent
链接：https://www.zhihu.com/question/27068705/answer/35286205
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

致谢

@知乎--机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？
@知乎--方差和偏差
 @bigdataage --交叉验证(Cross-Validation)
@一只鸟的天空--机器学习中防止过拟合的处理方法

最后编辑于：2017.12.04 08:56:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

总结：Bias(偏差)，Error(误差)，Variance(方差)及CV(交叉验证)

前言

犀利的开头

Error = Bias^2 + Variance+Noise

简单的例子理解Bias和Variance

Bias，Variance和Overfitting(过拟合)，Underfitting(欠拟合)

怎么避免过拟合和欠拟合

为什么要用交叉验证(Cross-Validation）

Bias、Variance和K-fold的关系

致谢

推荐阅读更多精彩内容