数据的描述性统计

在实际工作中,对于刚接手的数据集,在正式处理需求前,除了需要梳理清楚数据上报及转发环节,还需要对数据集进行质量评估和了解数据集的描述性统计特征。在很多公司里,数据分析师「触手可及」的便是数据开发工程师处理过后的数据,在上述环节中,分析师尤其需要重点关注数据集的描述性统计特征,了解不同类型的数据的集中、离散和分布程度,以便在业务提数时,补充合理的筛选条件,避免计算出来的指标有误导性。


数据描述的三个维度

所有的结构化数据都可以从三个维度进行描述,这三个维度就是:

  • 数据的集中趋势描述:算数平均值,加权平均值,调和平均值,几何平均值,众数,中位数
  • 数据的离散程度描述:全距,平均差,总体方差和标准差,样本方差和标准差,离散洗漱,四分位极差和四分位差
  • 数据的分布形态描述:峰度与偏度,概率及概率分布,二项概率分布,多项概率分布,泊松概率分布,指数概率分布,正态概率分布

数据的集中趋势描述

寻找反映数据集某一特征的代表值或中心值,表明所研究的对象在一定的条件下的共同性质和一般水平。

1)平均值
  • 算术平均值
    概念:将数据集合的所有数据值相加的和除以数据值的个数就能得到简单算术平均值。
    应用:当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,计算结果会掩盖数据集合的真实特征。
    \bar x = \frac{x_1+x_2+x_3+...+x_n}{n}

  • 加权算术平均值
    概念:将各数值乘以相应的权重值,然后加总求和得到总体值,再除以总的数据值个数。
    应用:计算前需要设定好各数据值的权重,可是由「专家」根据具体业务设置,也可以根据各数据值的分布占比进行设定。

m = \frac{f_1\bar x_1+f_2\bar x_2 + ... + f_n\bar x_n}{f_1+f_2+...+f_n}

  • 几何平均值
    概念:有些数据之间的关系不是相加减关系,而是乘除关系,此时该用几何平均值来表示由这样的数值组成数据集合的集中趋势。
    应用案例:银行的平均存款利率、汽车工厂每条生产线的平均产品合格率,由于生产工艺是连续型生产,只有上一道工序的合格品才能进入下一道工序中,所以每道工序的合格率之间是乘积关系。假设每道工序的产品合格率分别是 85%、97%、94% 和 92%,求这条生产线的平均产品合格率。

\bar x_j = \sqrt[n]{x_1x_2...x_n}

2)中位数

概念:对于数据集合,将所有的数值按照它们的大小,从高到低进行排序,如果数据集合包含的数值个数是奇数,那么排在最中间的数值就是该数据集合的中位数,如果数据集合的数值为偶数,那么取最中间两个数值的算术平均值作为中位数。
应用:中位数能够避免数据的平均水平受到异常值的影响,因此在做数据分析时,不仅要计算算数平均数,也计算中位数,若两个数字差距很大,就用中位数作为平均数。

3)众数

概念:数据集合中出现次数最多的数值。
应用:众数真正的价值在于类别型数据,用于统计各类别的数量。

数据的离散程度描述

1)极差

概念:数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。
应用:极差虽能表示数据集合的波动大小,但没有提供两个极值以外的数值的信息,且对极值非常敏感,不太可靠,需要结合其他离散程度描述指标来描述数据集合的离散程度。

R = R_{max} - R_{min}

2)平均偏差

概念:数据集合的所有数值与平均值的偏差(取绝对值)之和,除以数值个数。

R_a = \frac{\sum_{i=1}^{n}|x_i-\bar x|}{n}

3)方差和标准差

概念:描述数值与均值的偏离程度的指标。方差是各个数据分别与其平均数之差的平方的和的平均数。而标准差则是方差的算术平方根。
应用:方差/标准差值越大,代表大部分数值和其平均值之间的差异较大,数据离散程度也就越大。在处理风险评估模型时,一个数据的波动性,说明它涵盖的信息量越大,信息量越大,不可知的因素越多,因此风险会更大。

\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}

\sigma = \sqrt[2]{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}}

4)样本方差和标准差

概念:从数据总体中随机抽取一定数量的样本数值,然后用样本数值的方差和标准差来估计总体的方差和标准差。

s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}

总体方差公式的分母就是数据集合的总数量 N,而样本方差公式的分母却是 n-1,即抽取样本量 n 减去 1。主要是因为用样本方差估计总体方差总有一定的偏差所在。

5)变异系数

概念:数据集合的标准差与算术平均值的比值。
应用:无单位指标,不仅可以说明同类事物的相对离散程度,也可以说明不同类型事物的相对离散程度。

6)四分位极差

概念:对于数据集合,将所有的数值按照它们的大小,从高到低进行排序,排在四分之一位置的数值即为第一四分位数 Q1,以此类推,分别有有第二、三、四四分位数,Q2,Q3,Q4。四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合 50% 的数据值。

数据的分布形态描述

概率
概念:度量随机事件中某一个结果发生的可能性大小的数值。

1)古典概率法:事件结果数目已知,且每种结果对应的发生概率相等。
2)统计概率法:需要统计过往事件发生的结果频数来确定。
3)主观概率法:分析者对预测事件发生的概率做出主观估计。

概率分布
概率分布是指事件的不同结果对应的发生概率所构成的分布,可以利用二维坐标进行形象的解释。

  • 离散型概率分布的概率函数被称为概率质量函数,对应的 Y 轴表示某事件结果出现的概率。
  • 连续型概率分布对应的 Y 轴表示某结果的概率密度,X 轴任意一点,它对应的概率为 0,需要从 X 轴取某一段区间的积分面积得到事件的发生概率。

离散型概率分布

1)二项/多项分布

二项分布的试验结果只有两个(成功和失败,0 和 1),而多项分布的试验结果则多于两个,多项分布试验的特点如下:

  • 每次试验有两种或多种可能的结果,但是每种结果只会出现一个;
  • 每次结果都有各自发生的概率,所有结果的发生概率之和为 1;
  • 每次试验相互独立,每次试验结果都不受其他各次试验结果的影响(放回抽样)。

假设某个多项分布试验有 k 个结果,每种结果发生的概率分别为 p1,p2…,pk(概率之和为 1)现在进行 n 次多项分布试验,假设观测结果为 a1 的次数为 x1 次,结果为 a2 的次数为 x2 次,…,结果为 ak 的次数为 xk(n=x1+x2+…+xk),多么多项分布的联合概率函数为:

P(X_1 = x_1, X_2=x_2, …, X_k=x_k)=\frac{n!}{x_1!x_2!…x_k!}p_1^{x_1}p_2^{x_2}…p_k^{x_k}

而二项分布中,只有 p_11-p_1 (记为 q)两种概率,因此二项分布的概率函数为:
P(X=x_1) = C^{x_1}_np^{x_1}q^{n-{x_1}}=\frac{n!}{x_1!(n-x_1)!}p^{x_1}q^{n-x_1}

上述公式里,P(X=x) 表示特定事件的概率,在实际工作中,常结合数学期望一起使用。

数学期望

数学期望是对随机变量中心位置的一种度量,是试验中每次可能结果的乘以其结果的总和。

E(x) = \sum_{i=1}^{k} n_ip_i

假设一等奖成本 1000 元,二等奖成本 500 元,三等奖成本 100 元,欢迎下次再来当然没钱,而用户参加一次抽奖需要 10 元。我们将概率问题转换成运营方的收益和成本计算期望

下面从公司角度分析活动的盈亏成本:

一等奖 二等奖 三等奖 欢迎下次再来
A 方案盈亏结果 10-1000 10-500 10-100 10
P(X=x) 5% 10% 20% 65%
B 方案盈亏结果 10-1000 10-500 10-100 10
P(X=x) 10% 10% 10% 70%

A 方案的数学期望:

E(x)=(-990*5\%)+(-490*10\%)+(-90*20\%)+(10*65\%) = -110

B 方案的数学期望:

E(x)=(-990*10\%)+(-450*10\%)+(-90*10\%)+(10*70\%)=-150

A 方案能否期望没抽奖运营方亏损 110 元,B 方案则是亏损 150 元。

而从用户的角度分析活动的收益成本:

一等奖 二等奖 三等奖 欢迎下次再来
A 方案收益结果 1000-10 500-10 100-10 -10
P(X=x) 5% 10% 20% 65%
B 方案收益结果 1000-10 500-10 100-10 -10
P(X=x) 10% 10% 10% 70%

A 方案的数学期望:

E(x)=(990*5\%)+(490*10\%)+(90*20\%)+(-10*65\%)=110
B 方案的数学期望:

E(x)=(990*10\%)+(490*10\%)+(90*10\%)+(-10*70\%)=150

2)超几何分布

在二项/多项分布试验中,每次试验结果的发生概率是不变的,而超几何分布试验结果的概率会随着每一次试验的发生而改变(无放回抽样)。

  • 若样本容量 n = 1,即从有限总体中只抽取一个个案,且恰好抽到符合要求个案的概率,那超几何分布可以还原成二项分布
  • 如果数据总体的容量 N 无穷大,或是样本容量的 10 倍以上,即 N>=10n,也可以将二项分布近似描述超几何分布

假设有限数据总体包含 N 个数值,其中符合要求的个案数量为 m 个,如果从该数据总体中抽取 n 个个案,其中有 k 个是符合要求个案的概率计算公式为:

f(k;n,m,N)=\frac{C_m^{k}C_{N-m}^{n-k}}{C_N^{n}}

3)泊松分布

基于过去某个随机事件在单位时间内的平均发生次数,预测该随机事件在未来同样单位时间内发生不同次数的的概率。

P(X=k)=C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{(n-k)}=\frac{e^{-\lambda}\lambda^{k}}{k!}

连续型概率分布

1)指数分布

根据随机事件发生一次的平均等待时间来推断某个时间段内,随机事件发生的概率。

$$
2)均匀分布

是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,但所有的变量对应的概率都相等。

3)正态分布

正态分布的数据特点:

  • 集中性:正态曲线的高峰位于正中央,即均数所在的位置。
  • 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
  • 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。 68% 的数值位于平均值一个标准差的范围之内,95% 的数值在平均值两个标准差的范围内。
  • 正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数 μ 决定正态曲线的中心位置;标准差 σ 决定正态曲线的陡峭或扁平程度。σ 越小,曲线越陡峭;σ越大,曲线越扁平。

偏态分布的数据有什么特点?

  • 正偏态(右偏)分布:曲线右侧偏长,左侧偏短,M>Me>Mo,即平均数大于中数中数又大于众数,则数据的分布是属于正偏态分布。

    image
  • 负偏态(左偏)分布:曲线左侧偏长,右侧偏短,M<Me<Mo,即平均数小于中数,中数又小于众数,则数据的分布是属于负偏态分布。

    image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容

  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,408评论 5 8
  • 数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是...
    Vicky_1ecd阅读 2,553评论 0 0
  • 理论篇 数据的集中趋势众数数据集合中出现次数最多的数为众数,可能不止一个数值。中位数对于数据集合,按照从小到大或从...
    evanzh7阅读 698评论 0 0
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 1,179评论 0 0
  • 众数是指一组数据中出现次数最多的那个数据,一组数据可以有多个众数,也可以没有众数。 中位数是指将数据按大小顺序排列...
    phoenixalex阅读 422评论 0 1