集成为什么比单个学习器要好?针对不同的集成方法、不同的基学习器有不同的证明方法。我们就以一个最简单栗子加以说明。
以二分类问题为场景,假设我们在一个数据集上设法训练出了若干个弱学习器,这些弱学习器的泛化错误率均为ε且相互独立。
补充两点:① 使用同一数据集训练的学习器错误率不可能互相独立,但仍有办法使它们尽量和而不同;② ε至少要小于0.5,不然这个学习器还不如随机猜测。
然后我们用一种最简单的集成方法:使用三个基学习器,对预测样本的类别进行多数表决。那么这个集成模型的错误率是多少呢?是至少两个学习器都判错的概率,公式如下(高中数学):
只需证明下面这个公式,就可以证明集成后确实比单个学习器表现好
只要基学习器的错误率低于随机猜测,并且基学习器不是完全相同的,集成起来就会有更好的表现。