4. 离散型变量的中间值计算
和平均值不一样,中位数表示的是排在中间的那个数。具体的求法,根据样本量分下面两种情况:
- n是奇数,则中位数是第个
- n是偶数,则中位数是第个数和第个数的和除以2。
其实不管是离散还是连续变量,肯定都是可以排出一个顺序的,所以上面的方法也适用于连续型变量的中间值计算。但是如果手上拿到的是一个频数表,比如我们回到上一篇讲到的数据chap4_1.xlsx
对于这种数据如何求中间值呢?当然你可以按照频数一个一个写,就像这样: 4, 10, 10, 11, 11, 11, 12, 12, ...。然后从里面找第50个(100/2)和第51个(100/2+1),两个数相加除以2。但是这么做有点笨。一般是额外再做一列累积频数。累积频数在excel里有很多计算方式,我是把score这一列升序排列,然后使用=SUMIF([score],"<="&[@score],[freq])
计算累积求和。
从这个表里可以看到直到24这个score,累积频数是50(包括这3个24,或者说,第3个24排在第50位),所以第51位就是24下面的score: 25,两个数字相加除以2,得到24.5。
顺带一提,在excel里面真想求中位数的话,正常人是使用=median()
这个公式的,比如在这个工作表里,我用的是=MEDIAN(表1[score])
。但是一顿乱算也很有意思呀,对吧。
5. 连续型变量的中间值计算(根据频数表)
接下来看一下怎么使用分组频数表计算中位数。看一下工作表J13
到L26这个区域。
对于这种频数表,显然你不能用第50位的中间值(midpoint)加上第51位的中间值,然后除以二,对吧?毕竟组的中间值不代表实际的数据。那对于这种情况应该如何求中位数呢?首先还是要借助累积频数。从表里可以看到90~95
这一档结束以后,累积频数是44,而到了95~100
这一档结束以后,累积频数到了64。所以我们的中位数就在95~100
这一档。
在进一步讲以前,先要说明,下面这些是当你只有这么一个频数表,没有原始数据时候的做法。还是那句话,当你有原始数据的时候,正常人的做法是使用=median()
这个公式。说回现在这个表,如果只有这个表,没有原始数据,那又应该怎么求中位数呢?
这个过程有那么点绕所以还是画一个图好了。因为95~100
这个区组横跨了第50和第51个数,所以我们主要关注这个区组。这个区组开始以前,累积频数已经到了44。然后我们往后数20个数,就到了这个区组结束的地方。现在假设这个区组里面,各个数之间是等差分布的,于是可以有第50个数(, 也就是图中的)和本组最小值(95)之间的距离, 组距 (5),50这个顺序号,上个区组的累积频数(44),以及本区组的频数(20), 由三角形底边和高等比例原则(我瞎说的名称……)这些变量有下面的关系
在当前的数据里则有
于是可求得是96.5,另外第51位是96.75,两个加起来除以2就是96.625。顺便一提,对原始数据使用=median()
求得的中位数是96.5
那么当我们用变量的值(或者区组)作为横坐标,频数作为纵坐标的时候,就可以画出一幅图,显示变量在各个取值区间里,频数哪里比较大,哪里比较小;是左右对称呢,还是偏向一边,是比较集中呢,还是比较松散,这种图,叫做直方图
6. 概率分布函数(probability distribution function,a.k.a, pdf)
直方图