随机森林的基本在此就不进行赘述了,主要针对调参实践进行总结和自己体会,从而更好的理解模型和数据。
主要针对树深(maxDepth)、各叶节点最少样本数(minInstances),树颗数(numTrees),最小信息增益(minInfoGain)来进行调整,并比较训练集和测试集的AUC,评价标准为训练集AUC不宜过高,因为发现随机森林很容易过拟合,测试集AUC不降低。得出以下几点结论:
1、最小信息增益不宜过大。
2、树颗数增加对模型效果的影响较小。
3、各叶节点最小样本数对模型影响较小。
4、树深对模型影响较大,可适当增加树深,注意测试进行调整。
各人认为,这均是对过拟合的一些控制,不同场景需区别看待。
这里附上一些测试结果:
①关于minInfoGain
② 关于maxDepth
③ 关于minInstances
④ 关于numTrees