Bagging(套袋法)与Boosting(提升法)是集成学习中重要的算法,是一种模型融合的重要方法,相对于只利用一种分类模型,多个分类器的平均预测结果或利用投票的规则得到新的预测结果,往往会更好。下面介绍我整理的关于Bagging与Boosting算法的联系与区别。
一、Bagging( Bootstrap Aggregating) 自助聚合
1.1 Bootstrap( 有放回的均匀抽样)
Bagging算法所利用的预测数据就是通过Bootstrap方法得到的,Bootstrap方法是非参数统计上的一种抽样方法,实质就是对观测数据进行抽样,通过新抽样样本对总体分布特征进行推断。例如我们熟知的随机森林算法中不同的分类回归树,所利用的数据集就是通过Boostrap方法重抽样得到的。而利用Boostrap方法所做的好处是避免了做交叉验证时的样本量少的问题。同时重抽样后的数据可以得到相较于原观测数据少的噪声点,所以更能获得好的分类器。
Boostrap步骤:
- 对观测样本做有放回的抽样;
- 针对新抽取的样本,估计统计量;
- 重复上述操作n次,我们会得到n个在不同样本集下估计的统计量;
- 对估计的统计量的n个值求均值和方差。
当然Bootstrap方法适合于小样本,难以有效划分训练集和测试集时很有用,在做集成学习中,样本集往往通过Bootstrap方法来获取,倘若样本足够多,那么交叉验证会比Bootstrap更好。
1.2 Bagging
在理解了Bootsrap抽样方法后,Bagging实际就是对重抽样的多个样本集,分别建立一个分类器,进行并行模型训练。由于每个分类器之间相互独立,所以Bagging与只训练一个弱分类器相比,复杂度是相同的,所以这是一个高效的集成算法!利用Bagging的好处是它能在提高准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。并且由于利用的Boostrap方法,所以能减少噪音的影响,体现样本真实的分布情况。
Bagging的算法流程为:
- 从观测样本中利用Boostrap方法抽取个训练样本,未被抽取到的样本作为预测集,重复次;
- 对于这个训练集,我们训练个模型;
- 对于分类模型,利用少数服从多数的规则(类比kNN算法),得到最终预测的类别;对于回归模型,对这个模型预测结果取平均,作为最终预测的值。(model averaging)
通过这个流程可以看出,由于是投票选出最终的预测结果,从而可以获得很高的精度,降低泛化误差,但是弊端就是如果对于某一块,大多数分类器给出了一个错误分类,最终分类的结果也会错误。所以Bagging就没有考虑到对于分类器错分类,或者说性能差的地方做出调整。
那我们在什么时候会利用到Bagging呢? 学习算法不稳定的时候,例如神经网络、kNN算法、线性回归子集选取等,这些都是不稳定的(弱学习算法),如果利用Bagging,则可以增强原算法,倘若原算法本身就有很高的稳定性,使用Bagging可能会适得其反。
随机森林(Random Forest)就是一个很好的利用Bagging的模型,他采用的弱分类器是决策树算法,在此基础上,引入了一个随机属性选择,这使得每个分类器的差异度增加,进而提升集成后的模型泛化能力。这里不对RF展开叙述,读者可参看以下相关参考。
相关参考:
二、Boosting 提升法
2.1 Boosting 简介
与Bagging一样,Boosting也是集成算法中重要的算法,他与Bagging不同的是,Bagging采取的是并行计算,而Boosting是串行计算,对多个模型预测结果相加得到最终的结果。
在之前我们也说过,Bagging没有考虑在基学习器性能差的地方做出调整,所以Boosting在整个运行机制上做出了改进,具体可描述为:先用基学习器在初始训练集中训练,再根据基学习器表现对预测错的样本赋予更大的权值,从而在后续的学习器训练中受到更多的关注。这样根据基学习器对样本分布做出调整后,再将其训练下一个基学习器,反复分布迭代,从而达到指定值。所以Boosting是基于权值的弱分类器集成!
Boosting的算法流程:
- 先对于训练样本的每个样本给予权值,利用基学习器对训练样本训练,并更新权值(主要对其中错分类的样本增加权值);
- 再在具有新的权值分布的训练集上,学习出新的基学习器,并计算分类误差,并更新权值;
- 反复执行第二步,就可以得到一系列的基学习器,我们加大分类误差率小的分类器的权值,减小分类误差率大的分类器的权值,将其组合成最终的模型,此时的模型包含了前面所有训练得到的基学习器;
- 通过最终的模型得到预测结果。
2.2 AdaBoost (Adaptive Boosting) 自适应提升
在Boosting的框架基础上,还提出了AdaBoost (Adaptive Boosting), GBDT(Gradient Boosting Decision Tree), XGBoost(eXtreme Gradient Boosting),lightGBM(Light Gradient Boosting Machine)等。其中最具代表性的算法是AdaBoost,结合Boosting的算法流程,Adaboost主要是通过对迭代后的分类器权值与分类器的线性组合作为最终的分类器。其中最关键的就是如何得到权值的更新公式,而这是通过最小化AdaBoost的基本分类器的损失函数得到的。
下面对权值的更新进行推导:
AdaBoost的算法流程:
AdaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题,回归问题等,并且在实现过程中简单高效,没有超参数调节,但是Adaboost对于噪音数据和异常数据十分敏感,这种异常样本在迭代中可能会获得较高的权重,影响预测结果。此外,当其中的基分类器是分类回归树时,此时就变成了提升树,这里不阐述。
相关参考:
三、Bagging与Boosting的联系与区别
3.1 联系
Bagging和Boosting都是集成学习的两种主流方法,都是由弱分类器融合成强分类器。
3.2 区别
- 训练集选取不同
Bagging是从原训练集中利用Bootstrap抽样,有放回抽取,每一个训练集相互独立,每一个样本权值相等;Boosting每一次训练,都是原训练集,但是每次迭代改变了训练集中各个样本的权值; - 弱分类器权值不同
Bagging中每个基分类器是等权值的,通过投票的方式得到最终分类结果;Boosting中每个分类器是拥有不同的权值,其中分类误差率小的分类器的权值大,分类误差率大的分类器的权值小; - 计算处理
Bagging是并行计算,每个基分类器相互独立;Boosting是串行计算,由于权值的迭代,各个分类器与其前一分类器相互关联; - 方差-偏差
Bagging主要减少Variance,所以通常由容易过拟合的弱分类器组成,因为过拟合会导致方差增大,它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。;Boosting主要减少Bias,所以通常由欠拟合的弱分类器组成,因为欠拟合会导致偏差增大。具体可以参考 集成学习 Bagging和Boosting的区别与联系_李金金要爱金的博客-CSDN博客