数据描述的数值方法:
- 集中趋势
· 均值
· 中位数
· 众数 - 离散程度
· 极差
· 方差 - 分布的形状
· 偏度
· 峰度
集中趋势
定义:一组数据向其中心值靠拢的倾向和程度
测度:寻找数据的水平代表值或中心值
常用的测度指标:①均值②中位数③众数
-
均值:是指在一组数据中所有数据之和再除以数据的个数。
- 中位数(中值):对于有限的数集,可以通过把所有观察值按高低排序后找出正中间的一个数字作为中位数(如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数)
- 众数:是指一组数中出现次数最多的数值,叫众数。(一组数据中可能存在多个众数,也可能不存在众数。众数不仅适用于数值型数据,对于非数值型数据也同样适用)
三种测度标准的优缺点:
测度类型 | 优点 | 缺点 |
---|---|---|
均值 | 充分利用所有数据,适用性强 | 容易受到极端值影响 |
中位数 | 不受极端值影响 | 缺乏敏感性 |
众数 | 当数据具有明显的集中趋势时,代表性好,不受极端值影响 | 缺乏唯一性,可能有一个,可能有两个,可能一个都没有 |
离散程度
-
偏差:期望预测与真实标记的误差称为偏差(bias),为了方便起见,我们一边直接取偏差的平方:
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
- 极差:最大值-最小值。简单地描述数据的范围大小。
-
方差:描述数据的离散程度,用来计算每一个变量(观察值)与总体均数之间的差异。
- 噪声:真实标记与数据集中的实际标记间的偏差(噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下限,即刻画了学习问题本身的难度)
- 欠拟合:偏差大,方差小
- 过拟合:偏差小,方差大
分布的形状
偏态:数据分布的不对称性叫做偏态
偏度系数:对数据分布的不对称性(即偏斜程度)的测度,偏态系数的绝对值越大,偏斜越严重
(左偏分布也称负偏分布:SK<0;对称分布:SK=0;右偏分布:SK>0)
峰度:数据分布的扁平或尖峰程度
峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示
(扁平分布:K<0;尖峰分布:K>0)