决策树是各种机器学习任务的常用方法。 决策树是比较能满足于数据挖掘的方法,因为它在特征值的缩放和其他各种转换下保持不变,对无关特征是可靠的,而且能生成可被检查的模型。然而,生...
本文是对《数据挖掘概念与技术》第三章的补充,详细展开分箱技术的细节 1、Chimerge 分箱 Chimerge分箱虽然在书中只是寥寥几行,但却瞬间吸引了我的兴趣, 因为它的...
原理 计算步骤 1、确定评价对象的因素集 2、确定评价对象的评语集 3、确定评价因素的权重向量 4、进行单因素模糊评价,确立模糊关系矩阵R 5、综合评价 6、对模糊综合评价结...
模糊c均值聚类融合了模糊理论的精髓。相较于k-means的硬聚类,模糊c提供了更加灵活的聚类结果。因为大部分情况下,数据集中的对象不能划分成为明显分离的簇,指派一个对象到一个...
信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通...
# 用随机森林对缺失值预测填充函数 def set_missing(df): # 把已有的数值型特征取出来 process_df = df.ix[:,[变量]] ...
基本概念 Stacking集成方法在比赛中被称为“懒人”算法,它不需要花费过多时间的调参就可以得到一个效果不错的算法,同时,这种集成学习的方式不需要理解太多的理论,只需要在实...
之前有写过两篇关于Titanic比赛的简书,这几天上kaggle-Titanic的kernels在MostVost找了一篇排第一的kernels来看,参考链接[%5Bhttp...