小白根据前人经验尝试对泰坦尼克之灾进行预测分析
一、确认目标
预测乘客是否能在泰坦尼克之灾中幸存下来。
二、数据探索
1. 首先导入数据库和数据:
2. 观察数据,查看数据各列数据类型,数据大小以及缺失值状况
3. 查看老人小孩(假定13岁以下为小孩)的人数占比
三、特征工程
缺失值处理,按照以下原则对缺失值进行处理:
1. 连续型变量用平均数或者中位数填充;
2. 分类型变量用众数填充;
3. 缺失值>40%的直接丢弃;
训练集和测试集同时进行相同的数据处理流程:
四、建模分析
1. 对sex和Embarked进行one-hot-code处理,
导入库,建立模型的对象,划分数据集,训练模型,然后进行预测:
(如图所示,预测结果的准确度不是很高,说明特征工程做的不好,后面还需要继续加强这方面的练习)
导出预测结果:
a即为乘客Id和对应预测能否幸存的关系表。