1、 在当前的很多数据集上,相对其他算法有着很大的优势,表现良好
2、它能够处理很高维度的数据,并且不用做特征选择,因为特征子集是随机选择的
3、在训练完后,它能够得出特征重要性
4、在创建随机森林的时候,对generlization error使用的是无偏估计,模型泛化能力强
5、随机森林有oob,不需要单独换分交叉验证集
6、训练时树与树之间是相互独立的,训练速度快,容易做成并行化方法
7、对缺失值不敏感,如果有很大一部分的特征遗失,仍可以维持准确度。
缺点:
1、随机森林在某些噪音较大的分类或回归问题上会过拟合
2、对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响