Bagging与Boosting的联系与区别

Bagging(套袋法)与Boosting(提升法)是集成学习中重要的算法,是一种模型融合的重要方法,相对于只利用一种分类模型,多个分类器的平均预测结果或利用投票的规则得到新的预测结果,往往会更好。下面介绍我整理的关于Bagging与Boosting算法的联系与区别。

一、Bagging( Bootstrap Aggregating) 自助聚合
1.1 Bootstrap( 有放回的均匀抽样)

Bagging算法所利用的预测数据就是通过Bootstrap方法得到的,Bootstrap方法是非参数统计上的一种抽样方法,实质就是对观测数据进行抽样,通过新抽样样本对总体分布特征进行推断。例如我们熟知的随机森林算法中不同的分类回归树,所利用的数据集就是通过Boostrap方法重抽样得到的。而利用Boostrap方法所做的好处是避免了做交叉验证时的样本量少的问题。同时重抽样后的数据可以得到相较于原观测数据少的噪声点,所以更能获得好的分类器。
Boostrap步骤:

  1. 对观测样本做有放回的抽样;
  2. 针对新抽取的样本,估计统计量;
  3. 重复上述操作n次,我们会得到n个在不同样本集下估计的统计量;
  4. 对估计的统计量的n个值求均值和方差。

当然Bootstrap方法适合于小样本,难以有效划分训练集和测试集时很有用,在做集成学习中,样本集往往通过Bootstrap方法来获取,倘若样本足够多,那么交叉验证会比Bootstrap更好。

1.2 Bagging

在理解了Bootsrap抽样方法后,Bagging实际就是对重抽样的多个样本集,分别建立一个分类器,进行并行模型训练。由于每个分类器之间相互独立,所以Bagging与只训练一个弱分类器相比,复杂度是相同的,所以这是一个高效的集成算法!利用Bagging的好处是它能在提高准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。并且由于利用的Boostrap方法,所以能减少噪音的影响,体现样本真实的分布情况。

Bagging的算法流程为:

  1. 从观测样本中利用Boostrap方法抽取N个训练样本,未被抽取到的样本作为预测集,重复K次;
  2. 对于这K个训练集,我们训练K个模型;
  3. 对于分类模型,利用少数服从多数的规则(类比kNN算法),得到最终预测的类别;对于回归模型,对这K个模型预测结果取平均,作为最终预测的值。(model averaging)

通过这个流程可以看出,由于是投票选出最终的预测结果,从而可以获得很高的精度,降低泛化误差,但是弊端就是如果对于某一块,大多数分类器给出了一个错误分类,最终分类的结果也会错误。所以Bagging就没有考虑到对于分类器错分类,或者说性能差的地方做出调整。
那我们在什么时候会利用到Bagging呢? 学习算法不稳定的时候,例如神经网络、kNN算法、线性回归子集选取等,这些都是不稳定的(弱学习算法),如果利用Bagging,则可以增强原算法,倘若原算法本身就有很高的稳定性,使用Bagging可能会适得其反。

随机森林(Random Forest)就是一个很好的利用Bagging的模型,他采用的弱分类器是决策树算法,在此基础上,引入了一个随机属性选择,这使得每个分类器的差异度增加,进而提升集成后的模型泛化能力。这里不对RF展开叙述,读者可参看以下相关参考。
相关参考:

集成学习之Bagging | 码农网 (codercto.com)

(3条消息) bagging和boosting 总结,较全_u014114990的专栏-CSDN博客_boosting

二、Boosting 提升法
2.1 Boosting 简介

与Bagging一样,Boosting也是集成算法中重要的算法,他与Bagging不同的是,Bagging采取的是并行计算,而Boosting是串行计算,对多个模型预测结果相加得到最终的结果。
在之前我们也说过,Bagging没有考虑在基学习器性能差的地方做出调整,所以Boosting在整个运行机制上做出了改进,具体可描述为:先用基学习器在初始训练集中训练,再根据基学习器表现对预测错的样本赋予更大的权值,从而在后续的学习器训练中受到更多的关注。这样根据基学习器对样本分布做出调整后,再将其训练下一个基学习器,反复分布迭代,从而达到指定值。所以Boosting是基于权值的弱分类器集成!

Boosting的算法流程:

  1. 先对于训练样本的每个样本给予权值{w_i},利用基学习器对训练样本训练,并更新权值(主要对其中错分类的样本增加权值);
  2. 再在具有新的权值分布的训练集上,学习出新的基学习器,并计算分类误差,并更新权值;
  3. 反复执行第二步,就可以得到一系列的基学习器,我们加大分类误差率小的分类器的权值,减小分类误差率大的分类器的权值,将其组合成最终的模型,此时的模型包含了前面所有训练得到的基学习器;
  4. 通过最终的模型得到预测结果。
2.2 AdaBoost (Adaptive Boosting) 自适应提升

在Boosting的框架基础上,还提出了AdaBoost (Adaptive Boosting), GBDT(Gradient Boosting Decision Tree), XGBoost(eXtreme Gradient Boosting),lightGBM(Light Gradient Boosting Machine)等。其中最具代表性的算法是AdaBoost,结合Boosting的算法流程,Adaboost主要是通过对迭代后的分类器权值与分类器的线性组合作为最终的分类器。其中最关键的就是如何得到权值的更新公式,而这是通过最小化AdaBoost的基本分类器的损失函数得到的。
下面对权值的更新进行推导:


权值更新推导

AdaBoost的算法流程:

AdaBoost,李航《统计学习方法》

AdaBoost,李航《统计学习方法》

AdaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题,回归问题等,并且在实现过程中简单高效,没有超参数调节,但是Adaboost对于噪音数据和异常数据十分敏感,这种异常样本在迭代中可能会获得较高的权重,影响预测结果。此外,当其中的基分类器是分类回归树时,此时就变成了提升树,这里不阐述。

相关参考:

[机器学习] Boosting算法1 --- AdaBoost_小墨鱼的专栏-CSDN博客_boosting算法

boosting系列算法_jingshuiliushen_zj的博客-CSDN博客_boosting

三、Bagging与Boosting的联系与区别
3.1 联系

Bagging和Boosting都是集成学习的两种主流方法,都是由弱分类器融合成强分类器。

3.2 区别
  1. 训练集选取不同
    Bagging是从原训练集中利用Bootstrap抽样,有放回抽取,每一个训练集相互独立,每一个样本权值相等;Boosting每一次训练,都是原训练集,但是每次迭代改变了训练集中各个样本的权值;
  2. 弱分类器权值不同
    Bagging中每个基分类器是等权值的,通过投票的方式得到最终分类结果;Boosting中每个分类器是拥有不同的权值,其中分类误差率小的分类器的权值大,分类误差率大的分类器的权值小;
  3. 计算处理
    Bagging是并行计算,每个基分类器相互独立;Boosting是串行计算,由于权值的迭代,各个分类器与其前一分类器相互关联;
  4. 方差-偏差
    Bagging主要减少Variance,所以通常由容易过拟合的弱分类器组成,因为过拟合会导致方差增大,它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。;Boosting主要减少Bias,所以通常由欠拟合的弱分类器组成,因为欠拟合会导致偏差增大。具体可以参考 集成学习 Bagging和Boosting的区别与联系_李金金要爱金的博客-CSDN博客
若有描述不妥的地方请您指正,谢谢!
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,529评论 5 475
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,015评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,409评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,385评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,387评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,466评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,880评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,528评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,727评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,528评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,602评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,302评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,873评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,890评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,132评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,777评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,310评论 2 342

推荐阅读更多精彩内容