python数据分析系列一——描述性统计

这是python数据分析系列文章,从统计学基础知识到机器学习,将跟随居士的学习教程持续更新。这一篇主要描述数据集中趋势,离散程度以及分布形态等知识点,下一篇将讲述概率分布。

1.数据集中趋势
1)中位数
按照升序排列数据:
n为奇数时,(n+1)/2位置的数值为中位数
n为偶数时,(n+1)/2位置左右的数据求平均即为中位数
即在这组数据中,有一半的数据比它大,有一半的数据比它小。
2)众数
是一组数据中出现次数最多的数值叫众数,众数可以不存在或多于一个。
3)平均数
算术平均数,又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据。

算数平均数

加权平均数

几何平均是对各变量值的连乘积开项数次方根,主要用于金融场景。

几何平均数

4)分位数
分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值,其中中位数和四分位数较为常用。
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
来看看python实现:

nums = [1,2,3,5]
import numpy as np
#中位数
print(np.median(nums)) #返回2.5
#平均数
print(np.mean(nums)) #返回2.75
#分位数(numpy用percentile,padans用quantile)
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
#Q1
q1=np.percentile(a,25) 
#Q2
q2=np.percentile(a,50)
#Q3
q3=np.percentile(a,75)

分位数返回结果.png

2.数据离散程度
1)极差
即一组数值型数据中最大值和最小值之差,max(x)-min(x),反映了数值样本的数据范围
2)方差和标准差
方差用于衡量数据的分散程度,常见的有总体方差和样本方差,计算方法类似。标准差为方差的平方根。
3) 平均差
是数据组中各数据值与其算术平均数离差绝对值的算术平均数。

计算公式.png

4)分位差
其数值越小表明数据越集中,数值越大表明数据越离散。常用的四分位差为:四分位差=(第三个四分位数-第一个四分位数)/2

5)异众比率
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

6)离散系数
离散系数又称变异系数,CV(Coefficient of Variance)表示。CV(Coefficient of Variance):标准差与均值的比值。离散系数越小,数据的离散程度就越小。
看看python实现:

a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
#求方差
print(np.var(a))
#求标准差
print(np.std(a))
#求平均差
print(np.sum(abs(a-np.mean(a)))/len(a))
![image](https://upload-images.jianshu.io/upload_images/16902082-91c76404bd89a97a.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
#离散系数
print(np.std(a)/np.mean(a))
#返回结果
print(np.var(a),np.std(a),np.sum(abs(a-np.mean(a)))/len(a),np.std(a)/np.mean(a))
8.25 2.8722813232690143 2.5 0.5222329678670935

3.数据分布的形状
1)偏态系数
偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。

image

2)峰态系数
峰度(系数)是一个用于衡量离群数据离群度的指标。峰度(系数)越大,说明该数据系列中的极端值越多。

import numpy as np
from scipy import stats

x = np.random.randn(200)
skew = stats.skew(x)
kurtosis = stats.kurtosis(x)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,468评论 5 473
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,620评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,427评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,160评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,197评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,334评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,775评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,444评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,628评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,459评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,508评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,210评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,767评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,850评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,076评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,627评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,196评论 2 341

推荐阅读更多精彩内容

  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,415评论 5 8
  • 描述性统计描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统...
    AnthRax阅读 25,522评论 -1 5
  • 数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是...
    Vicky_1ecd阅读 2,562评论 0 0
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 1,181评论 0 0
  • 最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交...
    诺馨阅读 1,756评论 0 6