[数据分析] 方差和标准差

说过了均数,很多人都会想到最近非常流行的两句调侃“被平均”和“拖后腿”。既然我们说了均数是非常好的代表总体的一个指标,那这种感觉是怎么来的呢?直觉错了么?除了故意抬杠的,这个直觉是有一定道理。

相信大部分人听说过“正态分布”。这个正态分布的英语名字有两个,一个是高斯分布,为的是纪念它的发现者数学天才高斯。而另外一个呢,就是Normal Distribution,也就是“正常分布”。为什么这么说呢,因为这个分布在真实世界里实在是太常见了(和斐波那契数列差不多了)。这里我们不展开正态分布的事,以后会讲。现在我们只要知道正态分布很常见。在正态分布中大部分的数据(如果算平均薪水的话,就是大部分人的薪水的数值)是集中在整体数据的平均数的附近的。换句话讲,就是这个“均数”可以代表大部分数据。这个就是我们在统计意义上,对“平均”这个事情的信心来源,通常来说“均数”代表了大多数,而且这才叫“正常”。

好了,那么问题来了,既然只是“集中在平均数附近”,就说明并不是所有数据都正好等于均数(废话)。超过大家没意见,少了就有人觉得被平均了。这里就可以给出一个概念,离均差。顾名思义,就是每个数据离开均数的差距,公式就是做减法。若x代表数据,\bar{x} 表示均数,那么离均差就是x-\bar{x}

一个数据如此,全部数据呢?最简单的想法就是,把离均差都加起来呗。问题又来了,稍微算一下就知道离均差有正有负。如果简单地加总,那么答案永远是零,就失去的比较不同总体(比如上海和北京的平均薪水)的意义,零等于零么。

这里需要进行一下数学上的处理,把离均差先平方以后再加总。一来是方便,平方一般都会算的;另外呢,平方也不影响单调性。通俗的说,就是3比2大,那么3的平方9也比2的平方4大,这样就不影响比较了。于是公式就成了:

\sum_{1}^n (x_{n}-\bar{x} )^2

问题又来了。不同的总体拥有的数据量是不同的,比如北京和上海的在职人数不同,那么人数多的总体就有可能怎么都比人数少的那个大。北京上海还不明显,你要北京和某四线城市比呢?对吧。这时,我们肯定会很自然的想,那么再除以这个城市人数不就可以了?对的,所以式子就变成了:

\sigma ^2= \sum_{1}^n (x_{n}-\bar{x} )^2 /n

这里直接把方差的希腊字母放上去了,因为这个公式就是方差的定义公式。通过考察每个数据离开均数的差距,我们可以描述这个“被研究的总体”到底有多少人是“被平均”了,统计上说就是一个数据集的离散程度有多少。

好了,问题又来了。(这么多问题!)平方仅仅是个数学处理,在现实生活中一般没有啥意义,薪水的平方啥意思?又不能领了薪水先平方下再去花(哈哈哈)。所以,在统计指导意义上,还是再把方差求平方根。当然一般只取正值,或者叫绝对值,但实际上表达的是正负都可以。这个平方根就是标准差,\sigma

\sigma =\sqrt{\sigma ^2}

如果有人对前几年大流行的精益管理还有映像的话,这个西格玛就是6西格玛里的西格玛。精益的six sigma就是用到了正态分布的双侧检验,以后再讲。

难得最近有空,又可以愉快滴写作了。好了,今天到这里。下次考虑讨论参数估计。

[返回目录](https://www.jianshu.com/p/e840e58deb4f)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容