4. 频数表,直方图,概率分布曲线-2

4. 离散型变量的中间值计算

和平均值不一样,中位数表示的是排在中间的那个数。具体的求法,根据样本量分下面两种情况:

  1. n是奇数,则中位数是第\frac{n+1}{2}
  2. n是偶数,则中位数是第\frac{n}{2}个数和第\frac{n}{2}+1个数的和除以2。

其实不管是离散还是连续变量,肯定都是可以排出一个顺序的,所以上面的方法也适用于连续型变量的中间值计算。但是如果手上拿到的是一个频数表,比如我们回到上一篇讲到的数据chap4_1.xlsx

score离散数据频数表

对于这种数据如何求中间值呢?当然你可以按照频数一个一个写,就像这样: 4, 10, 10, 11, 11, 11, 12, 12, ...。然后从里面找第50个(100/2)和第51个(100/2+1),两个数相加除以2。但是这么做有点笨。一般是额外再做一列累积频数。累积频数在excel里有很多计算方式,我是把score这一列升序排列,然后使用=SUMIF([score],"<="&[@score],[freq])计算累积求和。

筛选后的频数表

从这个表里可以看到直到24这个score,累积频数是50(包括这3个24,或者说,第3个24排在第50位),所以第51位就是24下面的score: 25,两个数字相加除以2,得到24.5。

顺带一提,在excel里面真想求中位数的话,正常人是使用=median()这个公式的,比如在这个工作表里,我用的是=MEDIAN(表1[score])。但是一顿乱算也很有意思呀,对吧。

5. 连续型变量的中间值计算(根据频数表)

接下来看一下怎么使用分组频数表计算中位数。看一下工作表J13
到L26这个区域。

分组频数表

对于这种频数表,显然你不能用第50位的中间值(midpoint)加上第51位的中间值,然后除以二,对吧?毕竟组的中间值不代表实际的数据。那对于这种情况应该如何求中位数呢?首先还是要借助累积频数。从表里可以看到90~95这一档结束以后,累积频数是44,而到了95~100这一档结束以后,累积频数到了64。所以我们的中位数就在95~100这一档。

在进一步讲以前,先要说明,下面这些是当你只有这么一个频数表,没有原始数据时候的做法。还是那句话,当你有原始数据的时候,正常人的做法是使用=median()这个公式。说回现在这个表,如果只有这个表,没有原始数据,那又应该怎么求中位数呢?

中位数怎么求

这个过程有那么点绕所以还是画一个图好了。因为95~100这个区组横跨了第50和第51个数,所以我们主要关注这个区组。这个区组开始以前,累积频数已经到了44。然后我们往后数20个数,就到了这个区组结束的地方。现在假设这个区组里面,各个数之间是等差分布的,于是可以有第50个数(median, 也就是图中的x_1)和本组最小值min(95)之间的距离, 组距size (5),50这个顺序号rank,上个区组的累积频数cumulate(44),以及本区组的频数freq(20), 由三角形底边和高等比例原则(我瞎说的名称……)这些变量有下面的关系

\frac{x_1-min}{size}=\frac{rank-cumulate}{freq}

在当前的数据里则有

\frac{x_1-95}{5}=\frac{50-44}{20}

于是x_1可求得是96.5,另外第51位是96.75,两个加起来除以2就是96.625。顺便一提,对原始数据使用=median()求得的中位数是96.5

那么当我们用变量的值(或者区组)作为横坐标,频数作为纵坐标的时候,就可以画出一幅图,显示变量在各个取值区间里,频数哪里比较大,哪里比较小;是左右对称呢,还是偏向一边,是比较集中呢,还是比较松散,这种图,叫做直方图

6. 概率分布函数(probability distribution function,a.k.a, pdf)

直方图

其他未在文中标出的引用

如何在excel里生成一个直方图
关于频数表、平均值、中位数的简单统计视频教程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342