第一部分--认识数据
定量
定量数据是可以用数字衡量的数据,例如温度、金钱和猫咪的抓痕数。你可以将定量数据分成两组:连续数据和离散数据。离散数据只能包含特定的值。例如,交易售出的商品数量只能是正整数,你不可能购买 2.5 个枕头(或 2.5 只猫!)
连续数据可以是某个范围内的任何值,例如时间、高度或金钱。
定性
定性数据是对事物进行描述的信息,无法用数字量化,例如男性/女性和头发颜色。这些是分类数据,表示属于某个类别和组。通常,你需要按照类别对数据分组并进行对比。
数据还可以是有序数据,例如排名和在问卷调查中看到的主观量表,例如“你觉得炸玉米饼怎么样?”
1 好恶心!
2 不好吃
3 还行
4 好吃
5 很美味!
你有时候会看到有序数据被编号了(1 到 5),但是这些数字并不表示任何含义。
这些是你将看到的典型数据类型。你可能会处理图片或文字,这些内容似乎不符合上述类别。但是大部分情况下,你可以将它们转换为数字或类别。
以下是到目前为止的总结
• 定量
• 连续( 时间、高度、重量、金钱、利率、温度)
• 离散(出售的数量、会的语言数量、昨天收到的邮件数量)
• 定性
• 分类(性别、头发颜色、国家/地区、猫咪品种)
• 有序
• 排名、调查问卷问题,例如“你对猫咪有何感受?”
1 讨厌猫咪
2 不喜欢
3 保持中立
4 喜欢
5 非常喜欢
第二部分---描述数据
四个主要方面用于描述数值变量:
1 集中趋势测量
2 离散程度测量
3 分布的形状
4 异常值
我们看了集中趋势的度量
1 均值
2 中位数
3 众数
我们还看了离散程度的度量
1 值域
2 四分位差
3 标准差
4 方差
异常值
我们学习了异常值对于均值度量的影响较大,而对中位数度量的影响较小。我们学习了应该视情况处理异常值。常用技术包括:
1. 至少注意到它们的存在并确定对概括统计的影响。
2. 如果是输入错误 — 删除或改正
3. 理解它们为何存在,以及对我们想要回答的关于数据的问题的影响。
4. 当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
5. 报告时要小心。知道如何提出正确的问题。
直方图和箱线图
我们还看了使用直方图和箱线图来可视化数值数据。使用可视化方式比使用概括统计能使我们更容易地识别异常值和数据分布的形状。
(以上内容摘自cn.udacity.com 商业数据分析纳米项目)