机器学习项目流程
1 定义问题
1.1 数据获取
1.2 业务需求分析
1 业务场景分析,了解业务背景知识
2 讲业务场景转化成相关问题
3 选择合适的算法
4 测试算法可靠性
1.3 设定问题
确定应用场景,到底是那种机器学习类型,监督,无监督,或者混合起来解决
确定学习类型,在线还是批量,是不是以数据流的形式 持续学习
1.4 确定评估指标
RMSE 均方根误差
MAE 平均绝对误差
1.5 验证问题准确性
测试预测是否准确
2 数据获取研究处理
2.1 感性查看数据
DataFrame head() info() describe() hist()等方法
2.2 分割测试集
随机sklearn.model_selection.train_test_split
分层 某一特征下的子群体差异较大
sklearn.model_selection.StratifiedShuffleSplit
2.3 研究数据
寻找特征之间的关系
- 皮尔逊相关系数
- scatter_matrix
- 组合成新属性
2.4 处理数据
1 处理缺失值,去除不可靠特征
2 文本图像转化为数值类型
3 特征缩放,归一化,标准化
3 模型
选择3-5个模型
1 训练集上评估性能
2 基于验证集评估性能,交叉验证
3 微调模型
网格搜索,随机搜索
4 集成模型
5 测试集评估