分析建模,日常问题整理(三十)
2019.3.19~2020.6.12
1 dat.fillna('-99') 也可以是个字典,不同的列名对应不同的填充内容。
dat.fillna({''A:'-99','B':'-999'})
2 pd.Series判断是否单调的方法。
d['X1'].is_monotonic_increasing
d['X1'].is_monotonic_decreasing
3 GMM高斯混合模型
风控模型上可以对客户分群,在群上定制建模,提高模型预测精度。
高斯混合模型(GMM)聚类实践
GMM与K-means聚类效果实战
细分构建更好的预测模型4 轮廓系数
Silhouette Coefficient是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可用来在相同原始数据的基础上用来评价不同算法、或不同参数对聚类结果所产生的影响。越是接近1,则说明样本聚类越合理。5 分群后模型概率值不具备可比性。如样本1的0.5和样本2的0.5是不一样的,需进行分数校准。
分群评分卡的分数校准参考信用评分卡模型分数校准
xgb分数校准可将分群的模型分别计算总样本得到概率,将几个概率重新做模型,得到可比的总体分数。