本文内容摘自《Python数据分析与挖掘实战》
1. 分布分析
分布分析能揭示数据的分布特征和分布类型。
1.1 定量数据的分布分析
对于定量数据常分析其频率分布,其中选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行:
- 求极差;
- 根据极差和实际情况决定组距和组数;
- 决定分点;
- 列出频率分布表;
- 绘制频率分布直方图。
遵循的主要原则如下:
- 各组之间必须是相互排斥的;
- 各组必须将所有的数据包含在内;
- 各组的组宽最好相等。
1.2 定性数据的分布分析
对于定性数据,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性数据的分布。
饼图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一个部分的大小与每一类型的频数成正比。
条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义。
2. 对比分析
对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。
在对分析中,选择合适的对比标准是十分关键的步骤,只有选择合适,才能做出客观的评价。
2.1 绝对数比较
绝对数比较是利用绝对数进行分析,从而寻找差异的一种方法。
2.2 相对数比较
相对数比较是由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不同,相对数可以分为结构相对数、比例相对数、强度相对数、计划完成程度相对数、动态相对数。
2.2.1 结构相对数
将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。
如居民饮食消费支出占消费支出总额比重、产品合格率等。
2.2.2 比例相对数
将同一总体内不同部分的数值进行对比,表明总体内各部分的比例关系。
如人口性别比例、投资与消费比例等。
2.2.3 比较相对数
将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同空间条件下的数量对比关系。
如不同地区商品价格对比,不同行业、不同企业间某项指标对比等。
2.2.4 强度相对数
将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的强度、密度和普遍程度。
如人均GDP用“元/人”表示,人口密度用“人/平方公里”表示等。
2.2.5 计划完成程度相对数
指某一时期的实际完成数和计划数的对比,用以说明计划完成程度。
2.2.6 动态相对数
将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变化的速度。
如发展速度、增长速度等。
3. 统计量分析
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数。
反应变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差或是方差、四分位间距。
3.1 集中趋势度量
- 均值
- 中位数
- 众数
3.2 离中趋势度量
- 极差
- 标准差
- 变异系数:(标准差 / 均值) × 100%
- 四分位间距
4. 周期性分析
周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。
5. 贡献度分析(帕累托分析)
贡献度分析又称帕累托分析,它的原理是帕累托法则,又称20/80定律。
6. 相关性分析
分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。
6.1 直接绘制散点图
通关观察散点图判断是线性相关还是非线性相关?正线性相关还是负线性相关?
6.2 绘制散点图矩阵
sns.pairplot()
6.3 计算相关系数
6.3.1 计算Pearson相关系数
一般用于分析两个连续性变量之间的关系,其相关系数 r 的取值范围为: -1 <= r <= 1
- r > 0 为正相关,r < 0为负相关;
- |r| = 0表示不存在线性关系;
- |r| = 1表示完全线性相关。
0 < |r| < 1 表示存在不同程度的线性相关:
- |r| <= 0.3 为不存在线性相关;
- 0.3 < r <= 0.5 为低度线性相关;
- 0.5 < r <= 0.8 为显著线性相关;
- |r| < 0.8 为高度线性相关。
相关方法:
df.corr(method=pearson) # 不写参数也行,method参数默认就是pearson
6.3.2 计算Spearman相关系数
Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量可以使用Spearman相关系数。
相关方法
df.corr(method=spearman)