以下内容是我在Udacity的商业数据分析纳米项目的学习总结,大部分内容是摘抄自课程文案。
第一部分——准备
在建立模型前,需要作出以下准备:
1.理解业务
• 需要做出哪些决策?
• 需要获得哪些信息,来做出这些决策?
• 什么类型的分析能够获取决策所需的信息?
2.理解数据
• 需要什么数据?
• 有什么数据可用?
• 数据的重要特征是什么?
3.准备数据
• 收集:收集数据时,可能需要从组织内的多个来源收集数据。
• 清理:使用的数据集可能有一些问题需要在分析之前解决。这可能包括数据不正确或丢失。
• 格式化:可能需要通过更改日期字段的显示方式,重命名字段,甚至旋转数据来格式化数据,类似于使用数据透视表。
• 混合:将数据与其他数据集进行混合或组合,以增加其他变量,类似于在 Excel 中使用 VLOOKUP 函数。
• 数据抽样:可能需要对数据集进行取样,并使用更易于管理的记录数。
第二部分——分析/建模
1.利用Methodology Map选择解决问题的框架
2.根据框架创建模型
这里以线性回归方程为例,需要注意系数估计值(coefficient estimates)、p 值(p-values)和 R 平方。
第三部分——模型评估
• 观察模型上的关键结果
• 确保结果在业务问题的情境中有意义
• 确定是否继续下面的步骤还是返回上一阶段
• 必要时重复多次
第四部分——模型发布和可视化
• 根据分析,确定呈现见解的最佳方式
• 根据观众,确定呈现见解的最佳方式
• 确保共享的信息不要过量
• 使用结果向观众讲述故事
• 对于更复杂的分析,你可能需要向观众演示分析问题解决过程
• 始终注明使用的数据源出处
• 确保你的分析支持需要做出的决策