kaggle的经典入门题:titanic存活率预测
记录几个阶段问题
1、花里胡哨一堆操作,准确率没什么体现
很多notebook写的很好,缺失值处理、特征提取、算法选型、超参数调优、...,全篇步骤清晰,理论专业,花里胡哨一堆操作准确率0.8都上不去。
于此同时,只采用sex信息,使用最简单的逻辑回归,预测的准确率就有0.7655了
那些花里胡哨写了一大堆操作的,准确率也没高多少→_→
为什么会有这样的现象呢?
2、特征提取做文章
为了提高准确率,收集各种资料,认为要在特征工程上做文章,一堆乱七八糟的操作后,还是没有突破0.8的关卡,基本都是0.77xxx
3、运行高分代码
kaggle上超高分的代码点进去,发现毫无逻辑可言,都不知道怎么搞出来的
有些高分分享,复制代码本地运行并没有得到所谓的好结果
小结
怎么才能提高准确率呢?
titanic数据集为什么会存在1这种情况呢?