知乎:泊松分布 (Poisson Distributions) 的推导&二项分布、泊松分布到底该如何近似计算?
阮一峰:泊松分布和指数分布:10分钟教程 和 泊松分布与美国枪击案
非严格定义(此处更多的是基于自己的理解)
看了很多文章对于泊松分布的介绍都提到了这样几句话
- 泊松分布是二项分布的极限情况
- 如果试验次数n很大,二项分布的概率p很小,且乘积λ= np比较适中,则事件出现的次数的概率可以用泊松分布来逼近
这两句话开始带给我一个极大的迷惑性,所谓的极限情况具体是什么,"很大","很小","比较适中"这几个词所表示的含义真的是很模糊
目前为止我是这样理解这几句话的,我们在进行任何实验时都会选定一个观测的基本度量区间,例如一次抛硬币实验,一天婴儿出生个数,一个小时通过的车辆,这里的一次、一天、一个小时就是我所说的基本度量区间。
在这个基本区间内,实验的结果可以认为是恒定的,即一次伯努利试验的概率p可以计算出来,但如果我们把这个区间划分为无穷个小区间,即n—>∞,那么p—>0,那么λ=np就可以理解了
暂时抛开这个大区间的划分,我们从这个无穷小的区间来观察问题
其实类似求在n个小时内,出生婴儿为k个的概率,依然可以以二项分布的概念来理解,虽然看起来不像抛硬币那么直观
我们把时间划分为n个无限小的时间点,大小为w,那么n个小时,就等于进行了N=n/w次伯努利实验,每次结果要么是出生,要么是不出生,虽然此时的出生概率pi无限趋近于0,那么求上面问题,就成了一个很直观的求二项分布的问题,我想也即可以理解某些文章说的泊松分布把离散的伯努利实验变为了连续
这样看起来的话,任何求概率的问题其实都是用二项分布的概率质量函数来计算,但实际这根本不可能求的出来,做上述统计的统计时,根本不可能统计一个无限小的时间点上发生事件的概率,所以我们还得从大区间(即上面说的基本度量区间)的角度来统计问题,仔细思考泊松分布的推导,它就是采用求极限的方式把从这个无限小的区间内求解问题转化为从大区间来求解,即只使用基本度量区间的期望值来求解
但因为是求极限,所以也就有了上面的疑惑的第二句话的答案,试验次数n越大,二项分布的概率p越小,泊松分布就越逼近二项分布
(此处疑问,到底多大算大,多小算小,上面给出的张老师的文章有讲解,但表格我暂时没太看懂)
公式推导
知乎那篇文章,是我看到的觉得最好的一篇关于泊松分布的文章,所以就不重复的贴公式了
补充几个当时看了有些疑惑的地方:
关于这串公式的转换过程中二项式系数从第二步到第三步的转换,注意分母要用分数的乘法法则,而不是加法法则,这属于当时我看的时候脑袋没转过弯来,不过我看原文评论里有个人和我有同样的疑惑,所以在这里就贴一下
再就是
我想换成
更好理解一些