说过了均数,很多人都会想到最近非常流行的两句调侃“被平均”和“拖后腿”。既然我们说了均数是非常好的代表总体的一个指标,那这种感觉是怎么来的呢?直觉错了么?除了故意抬杠的,这个直觉是有一定道理。
相信大部分人听说过“正态分布”。这个正态分布的英语名字有两个,一个是高斯分布,为的是纪念它的发现者数学天才高斯。而另外一个呢,就是Normal Distribution,也就是“正常分布”。为什么这么说呢,因为这个分布在真实世界里实在是太常见了(和斐波那契数列差不多了)。这里我们不展开正态分布的事,以后会讲。现在我们只要知道正态分布很常见。在正态分布中大部分的数据(如果算平均薪水的话,就是大部分人的薪水的数值)是集中在整体数据的平均数的附近的。换句话讲,就是这个“均数”可以代表大部分数据。这个就是我们在统计意义上,对“平均”这个事情的信心来源,通常来说“均数”代表了大多数,而且这才叫“正常”。
好了,那么问题来了,既然只是“集中在平均数附近”,就说明并不是所有数据都正好等于均数(废话)。超过大家没意见,少了就有人觉得被平均了。这里就可以给出一个概念,离均差。顾名思义,就是每个数据离开均数的差距,公式就是做减法。若代表数据,表示均数,那么离均差就是。
一个数据如此,全部数据呢?最简单的想法就是,把离均差都加起来呗。问题又来了,稍微算一下就知道离均差有正有负。如果简单地加总,那么答案永远是零,就失去的比较不同总体(比如上海和北京的平均薪水)的意义,零等于零么。
这里需要进行一下数学上的处理,把离均差先平方以后再加总。一来是方便,平方一般都会算的;另外呢,平方也不影响单调性。通俗的说,就是3比2大,那么3的平方9也比2的平方4大,这样就不影响比较了。于是公式就成了:
问题又来了。不同的总体拥有的数据量是不同的,比如北京和上海的在职人数不同,那么人数多的总体就有可能怎么都比人数少的那个大。北京上海还不明显,你要北京和某四线城市比呢?对吧。这时,我们肯定会很自然的想,那么再除以这个城市人数不就可以了?对的,所以式子就变成了:
这里直接把方差的希腊字母放上去了,因为这个公式就是方差的定义公式。通过考察每个数据离开均数的差距,我们可以描述这个“被研究的总体”到底有多少人是“被平均”了,统计上说就是一个数据集的离散程度有多少。
好了,问题又来了。(这么多问题!)平方仅仅是个数学处理,在现实生活中一般没有啥意义,薪水的平方啥意思?又不能领了薪水先平方下再去花(哈哈哈)。所以,在统计指导意义上,还是再把方差求平方根。当然一般只取正值,或者叫绝对值,但实际上表达的是正负都可以。这个平方根就是标准差,。
如果有人对前几年大流行的精益管理还有映像的话,这个西格玛就是6西格玛里的西格玛。精益的six sigma就是用到了正态分布的双侧检验,以后再讲。
难得最近有空,又可以愉快滴写作了。好了,今天到这里。下次考虑讨论参数估计。
[返回目录](https://www.jianshu.com/p/e840e58deb4f)