木东居士学习计划:第一周 数据的描述性统计

理论篇

  • 数据的集中趋势
    • 众数
      数据集合中出现次数最多的数为众数,可能不止一个数值。
    • 中位数
      对于数据集合,按照从小到大或从大到小排列,
      如果集合数目为奇数个,排在中间的数字为中位数。
      如果集合数目为偶数个,排在中间的两位数的算术平均值为中位数。
    • 平均数
      算术平均值:集合中所有数据相加处以集合中数值个数。
      几何平均值:
      有些几何内的数值不止有加减关系还有乘除关系,此时应该用到几何平均值。集合中数值为x_1,x_2...x_n,且所有的值都大于0,公式为
      \overline{x}_{j}=\sqrt[n]{x_{1} x_{2} \cdots x_{n}}
      例如生产线上各步骤是顺承关系,最终产品的合格率应用为几何平均值。
    • 分位数
      是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
    • 极差
      极差又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。全距的计算公式为:
      R = x_{max}-x_{min}
  • 数据的离中趋势
    • 数值型数据:

      • 方差: 方差利用平方克服了离差和等于0的问题,
        -局限性 :方差的单位是数据单位的平方,夸大了数据集合的离散型。
        \sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}

      • 标准差: 因为方差的局限性,取方差的算术平方根作为描述离散程度的指标。
        \sigma=\sqrt{\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}}

      • 极差:极差又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。全距的计算公式为:
        R = x_{max}-x_{min}

      • 平均差: 也叫平均偏差。对于任意数据集合,数据集合中每个数值与算术平均值之间的偏差的绝对值,处以数据个数。
        R_{a}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}

      • 顺序数据:四分位差
        回顾知识点:中位数。
        引入知识点:一个集合的数,按照从小到大排序,排在四分之一位置的即为第一四分位数,Q_1,排在四分之二位置的即为第二四分位数Q_2,也就是中位数,排在四分之三位置的即为第三四分位数Q_3
        引出知识点:四分位极差等于第一四分位数与第三四分位数的差值(Q_3-Q_1

      • 分类数据:异众比率
        是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
        众数:是一组数据中出现次数最多数值。有时众数在一组数中有好几个。
        计算公式:
        V_{m 0}=\frac{N-f_{m 0}}{N}
        其中,V_m0表示异众比率,f_m0表示众数次数,N表示总体单位总数(即总体次数)。

      • 相对离散程度:离散系数
        也称为变异系数,数值为标准差相对于算术平均值的大小。
        适用场景:两个集合算术平均值不等,标准差相等,无法对比集合中数值的离散程度。
        总体变异系数公式:
        V_{\sigma}=\frac{\sigma}{\mu}
        样本变异系数:
        V_{s}=\frac{s}{\overline{x}}
        \sigma为总体标准差,\mu为总体平均值,
        s为样本标准差,\overline{x}为样本平均值。

      • 分布的形状:
        参考《统计学》 作者:卢黎霞,董洪清主编

        • 偏态系数(Coefficient of Skewness):
          根据未分组的原始数据计算偏态系数时,通常采用下面的公式:
          \mathrm{SK}=\frac{\sum_{i=1}^{k}\left(\mathrm{x}_{i}-\overline{x}\right)^{3}}{\mathrm{n} \sigma^{3}}

      \overline{x}为平均值
      \sigma为标准差

根据分组数据计算偏态系数的公式是:
\mathrm{SK}=\frac{\sum_{i=1}^{k}\left(\mathrm{x}_{i}-\overline{x}\right)^{3} \mathrm{f}_{i}}{\sum_{i=1}^{n} \mathrm{f}_{i} \sigma^{3}}
f_i为频次
偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏态系数:
1. 偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。
2. 偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
3. 偏态系数等于0即分布对称。

  • 峰态系数(Coefficient of Kurtosis):
    它是指数据分布的平峰或尖峰程度,峰态通常与正态分布比较而言,
  1. 如果数据分布为标准正太分布,则峰态系数为0。
  2. 如果峰态系数大于0,则为尖峰分布。
  3. 如果峰态系数小于0,则为平峰分布。

峰态系数常用计算公式为:
\mathrm{K}=\frac{\sum_{i=1}^{n}\left(\mathrm{x}_{\mathrm{i}}-\overline{\mathrm{x}}\right)^{4}}{\mathrm{n} \sigma^{4}}-3

屏幕快照 2019-07-21 12.43.16.png

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容

  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,408评论 5 8
  • 数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是...
    Vicky_1ecd阅读 2,553评论 0 0
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 1,179评论 0 0
  • 最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交...
    诺馨阅读 1,754评论 0 6
  • 统计学包括描述性统计和推论统计。 描述性统计的含义——"A descriptive statistic is a ...
    饼人阅读 5,263评论 0 3