从二项分布到泊松分布
二项分布概率公式:
泊松分布需要做以下假定:
- 一个事件在一段时间或空间内发生的平均次数或数学期望为λ。
- 将这段时间或空间分成n等份,在每一等份的时间或空间内,这个事件发生的概率为λ/n,当n很大时,λ/n很小,即在这段内,要发生两次或者更多次事件是不可能的。因此在这段时间内不发生该事件的概率表示为1-λ/n。
- 在n个等份中,每个等份是否发生该事件是独立的;
根据以上条件,在这段时间内,该事件发生k次的概率服从二项分布,可以得到概率表示如下:
所以,有:
从上式可知,泊松分布是关于数学期望或平均次数(lambda)的函数,随着lambda的不同,概率密度图也不同。泊松分布概率密度图如下:
泊松分布概率累计图:
我的理解,如果知道事件某段时间内发生次数的期望(均值),那么围绕着该均值,就可以知道任意时间段内发生次数的概率分布。
比如90分钟内平均进球数为3个:
- 以分钟为粒度:每分钟平均进球数(期望)为3/90个,假设每分钟不可能发生超过一次进球(泊松分布的假设条件),那么一分钟之内只可能进球或者不进球,所以可以把一分钟是否进球可以看做是一次独立事件,根据二项分布的期望计算公式,E=np,这里E=3/90,n=1,所以P=3/90,1-P=87/90。这样,计算90分钟内进x个球的概率,可以类比为二项分布抛硬币的过程——90次的独立事件中发生了x次。
- 以秒为粒度:每秒钟平均进球数为(期望)为3/5400个,假设每秒钟不可能发生超过一次进球(泊松分布的假设条件),那么一秒钟之内只可能进球或者不进球,所以可以把一秒钟是否进球可以看做是一次独立事件,根据二项分布的期望计算公式,E=np,这里E=3/5400,n=1,所以有P=3/5400,1-P=87/5400。这样,计算90分钟内进x个球的概率,可以类比为二项分布抛硬币的过程——5400次的独立事件中发生了x次。
在期望一定的情况下,缩小粒度(缩小p)相当于增大了n,在n比较大的时候二项分布不好计算,且此时p比较小,正好可以用泊松分布来替代(近似)二项分布,来估计事件发生任意次数时的概率。
从泊松分布到正态分布
借用维基百科的一个图,当λ=10的时候,泊松分布是不是看起很对称,有点像正态分布?
其实可以证明,当发生次数k比较大的时候,泊松分布会变成均值为λ,方差为λ的正态分布:
说明泊松分布只适用于发生次数k较少的情况。