中心极限定理通俗介绍
中心极限定理收敛至大数定律
什么是中心极限定理(Central Limit Theorem)
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
什么是大数定律
大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。
其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50%。
我们先举个栗子🌰
现在我们要统计全国的人的体重,看看我国平均体重是多少。当然,我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组,每组50个人。 然后,我们求出第一组的体重平均值、第二组的体重平均值,一直到最后一组的体重平均值。中心极限定理说:这些平均值是呈现正态分布的。并且,随着组数的增加,效果会越好。 最后,当我们再把1000组算出来的平均值加起来取个平均值,这个平均值会接近全国平均体重。
其中要注意的几点:
总体本身的分布不要求正态分布
上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。(神奇!)
样本每组要足够大,但也不需要太大
取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。
话不多说,我们现在来一步步看到中心极限定理是如何起作用的。
用实际数据来展示中心极限定理
https://zhuanlan.zhihu.com/p/25241653
此例子很有说服力。
大数定理 与中心极限定理区别
大数定律:揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。
中心极限定理:说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。
大数定律研究的是在什么条件下,这组数据依概率收敛于他们的均值。
中心极限定理研究的是在什么条件下,这些样本依分布收敛于正太分布。(卯诗松的概率论与数理统计上说)
大数定律描述的是频率稳定性,就是我们所说的频率稳定在具体的一个数值,即为概率;
中心极限定理描述的是分布稳定性,指的是频率有很多,但是服从正态分布,XY轴中Y最高的那个正态分布数值即为概率。
大数定理是说样本足够大时,会接近期望,在样本无穷大时平均值是期望。(一个值)
中心极限定理说的是样本距离期望的涨跌偏差分布。(出现一种分布规律)
举个简单的例子,一滴水从高空落下,经过一个随机分布的风向后,落在地上。
大数定理指出,无论风向分布规律是什么,所有点距离垂直落下的点的距离应该等于一个值,这个值就是期望
中心极限定理指出,无论风向分布规律是什么,每个样本距离期望的位置的距离分布是符合正态分布的
https://zhuanlan.zhihu.com/p/25241653
http://wiki.mbalib.com/wiki/%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B
http://wiki.mbalib.com/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86
https://www.zhihu.com/question/22913867
https://www.zhihu.com/question/21110761/answer/23815273