通过组合多个过拟合评估器来降低过拟合程度,实质上是一种集成学习方法,通常称为装袋算法。
虽然每个评估器都对数据过拟合,但是通过求取均值的方式,最终仍然可以获得很好的分类效果。
随机决策树的集成算法就是随机森林。
案例:用随机森林识别手写数字
显示出一部分数据:
使用随机森林对数据进行分类:
这其中分类报告中涉及到了一些衡量指标,具体介绍查阅以下网址:
机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)
https://www.cnblogs.com/Zhi-Z/p/8728168.html
画出混淆矩阵:
我们发现通过以上简单的,未调优的随机森林对手写数字进行分类,就可以取得不错的结果。
随机森林总结
集成评估器:随机森林
(1)原理简单,训练和预测速度很快,多任务可以并行计算,因为每棵树都是独立的;
(2)多棵树可以进行概率分类:多个评估器之间的多数投票可以给出概率的估计值(使用Scikit-Learn中的predict_proba()方法);
(3)无参数,模型灵活。
缺点:随机森林的结果不容易解释,难以解释分类模型的意义。