近一个月的努力,最终却没能进入复赛,心里难受的很,写点东西记录下能好受点吧。原本是没有想写文章的,毕竟成绩不是很好。
比赛经过一个月的时间对我而言确实是一个挑战,以往玩比赛基本上两个星期就不在坚持了,这次比赛算是坚持的时间最长的,当然也是最煎熬的。比赛过程中尝试了很多方法,比如:预测空值、gbdt特征、指标正常范围、指标组合得出特定的疾病(血脂)、暴力特征生成、聚类、分类、构造新特征等等。
尝试了这么多方法,最终有效的却很少(或许是被A榜给迷惑了吧),很多方法在本地的CV中都有一定的提升,但是提交线上后A榜都明显降低,最后B榜也就没有使用。
总结下有用的东西吧:
(1)空值填充,这里我也去尝试了:随机森林预测空值、均值、中位数,随机森林线下提升效果不是很明显(应该是因为我只处理了几个字段,其他的还是用了均值),线上却降了;尝试中位数是因为考虑到很多异常指标的异常值非常大,如果直接取均值可能已经偏离了正常范围(一般没有做改项检测,我认为是没有必要检查,应该是正常的)。
(2)暴力特征生成:都原始特征进行暴力组合或普通的转换,如特征间加减乘除等运算,然后在使用lgb进行特征重要度筛选,保留有效特征;因为生成的特征较多,无法都提交线上测试,只做了本地cv验证,效果也是有提升,具体数据也不想找记录了。最终也是线上暴跌了。
(3)特征字段分析:通过对特征数据分布分析,计算偏度、峰度,发现有部分字段偏离标准整体分布较为严重,使用log转换即可。对这些字段做log转换之后又去看了和标签变量的相关系数,部分字段的相关系数直接涨了10%。(线上线下是能够同步降低的)
var = "甘油三酯"
tmp["%s"%var] = np.log1p(tmp[var])
var ="*天门冬氨酸氨基转换酶"
tmp["%s"%var] = np.log1p(tmp[var])
var = "*丙氨酸氨基转换酶"
tmp["%s"%var] = np.log1p(tmp[var])
var = "*碱性磷酸酶"
tmp["%s"%var] = np.log1p(tmp[var])
var = "*r-谷氨酰基转换酶"
tmp["%s"%var] = np.log1p(tmp[var])
var = '白球比例'
tmp["%s"%var] = np.log1p(tmp[var])
(4)构造新特征:根据业务去创造特征当然是最合适的,我从指标以及体检报告分析,发现以下指标可以直接计算得到,且体检报告中也有这些指标(说明这些指标是有医学参考意义吧)。线上线下能够保持同步改进。
d_data["中性粒细胞"] = d_data["白细胞计数"]*d_data["中性粒细胞%"]
d_data["单核细胞"] = d_data["白细胞计数"]*d_data["单核细胞%"]
d_data["嗜酸细胞"] = d_data["白细胞计数"]*d_data["嗜酸细胞%"]
d_data["嗜碱细胞"] = d_data["白细胞计数"]*d_data["嗜碱细胞%"]
d_data["中间细胞%"] = d_data[['单核细胞%', '嗜酸细胞%', '嗜碱细胞%']].apply(lambda x: np.sum(x),axis=1)
d_data["中间细胞"] = d_data["白细胞计数"]*d_data["中间细胞%"]
(5)目标分析:做了分布分析,同样偏度、峰度不符合标准正太分布,做log转换,再看转换后的目标与各特征字段间的相关性有不同程度的提高。极值分析:考虑到这题的问题是高血糖对mse评测结果影响特别大,所以只丢弃了极高值(取了血糖<20)。
(6)模型融合:使用mlens融合(之前一直使用加权平均,但是权重很难调整,同事推荐了mlens包,挺简单的容易上手,kaggle上也有人用);在使用多模型融合之前一定要先看看各个子模型之间预测结果的相关性(相关性太高,融合的效果越不明显),最终从结果相关性、算法原理去挑选子模型。(可惜的是A榜使用融合方案却不如lgb单模型,导致后来B榜没有使用多模型,但实际B榜使用多模型比单模型好0.02,排名相差了100,融合模型在B榜可以到0.6245)
def createModel():
ensemble = SuperLearner(scorer=fevalMSE, random_state=2017, verbose=2)
ensemble.add([
Ridge(),
lgb.LGBMRegressor(boosting_type='gbdt',learning_rate=0.01,max_depth=10,num_leaves=51,n_estimators=850),
GradientBoostingRegressor(),
BayesianRidge()
])
ensemble.add_meta(LinearRegression())
return ensemble