一、内容回顾
- 上图包括了数据从获取到使用的全流程放,其中的包括数据获取、探索分析与可视化、预处理、分析建模和模型评估五部分。
1.数据获取
- 数据仓库
- 监测与抓取
- 用户填写
- 日志
- 埋点
- 计算
2. 探索性数据分析与可视化
2.1 单因子探索分析
- 异常值分析
- 结构分析
- 对比分析
- 分布分析
2.2 多因子探索分析
- 交叉分析
- 分组分析
- 钻取分析
- 因子分析
3. 特征预处理
- 特征使用
- 特征获取
- 特征处理
- 异常值处理
- 特征选择
- 特征变换
- 特征降维
- 特征衍生
- 特征监控
4. 分析建模
- 分类模型
- 回归模型
- 聚类模型
- 关联模型
- 半监督模型
5. 模型评估
- 针对分类模型
- 混淆矩阵
- roc曲线
- auc值
- 针对回归模型
- mae
- mse
- r方评价
- 针对聚类模型
- rms
- 轮廓系数
- 针对关联模型
- 支持度
- 执行度
- 提升度
二、 重看数据分析
- 目标角度:
- 描述类任务
直接获取能代表数据特征的指标。- 断因类任务
结合目标进行分析。- 预测类任务
根据已有的数据特征,对未来的数据进行预测。- 决策类任务
整合已有的数据特征和规律,尤其是与收益相关的指标,对决策进行支撑。
- 过程角度:
- 数据采集
- 探索分析
- 特征工程
- 数据建模
- 模型评估
- 模型应用
- 模型融合
- 方法角度:
- 对比分析
- 交叉分析
- 分组分析
- 因素分析
- 漏斗图
- 主成分分析
- 聚类分析
- ... ...