C5.0算法是在C4.5算法的基础上提出的
C5.0和C4.5算法的对比:
1.都是通过计算信息增益率来划分结点,两者的共同
2.C5.0算法通过构造多个C4.5算法,是一种boosting算法。准确率更高
3.C5.0算法运行速度快,可以出来例如,C4.5需要9个小时找到森林的规则集,但C5.0在73秒完成了任务。
4.C5.0运行内存小。C4.5需要超过3 GB.(工作不会对早些时候完成32位系统),但C5.0需要少于200 mb。
5.C5.0算法,可以人为的加入客观规则
6.C5.0可以处理较大的数据集,特征可以是:数字,时间,日期,名义字段
7.C5.0可以加入惩罚项,(也就是第2条中boosting过程)