写在前面:
进入主题前,先明确几个概念:
离散型变量(或取值个数有限的变量):取值可一一列举,且总数是确定的,如投骰子出现的点数(1点、2点、3点、4点、5点、6点)。
连续型变量(或取值个数无限的变量):取值无法一一列举,且总数是不确定的,如所有的自然数(0、1、2、3……)。
离散型变量取某个值xi的概率P(xi)是个确定的值(虽然很多时候我们不知道这个值是多少),即P(xi)≠0:例如,投一次骰子出现2点的概率是P(2)=1/6。
连续型变量取某个值xi的概率P(xi)=0:对于连续型变量而言,“取某个具体值的概率”的说法是无意义的,因为取任何单个值的概率都等于0,只能说“取值落在某个区间内的概率”,或“取值落在某个值邻域内的概率”,即只能说P(a<xi≤b),而不能说P(xi)。 为什么是这样?且看下例:
例如,从所有自然数中任取一个数,问这个数等于5的概率是多少?从所有的自然数中取一个,当然是有可能取到5的,但是自然数有无穷多个,因此取到5的概率是1/∞,也就是0。
又如扔飞镖,虽然是有可能落在靶心的,但其概率也是0(不考虑熟练程度等其他因素),因为靶盘上有无数个点,每个点的概率是一样的,因此落在某一个具体的点上的概率为1/∞=0。
根据前面的例子可知:在连续型变量中:概率为0的事件是有可能发生的,概率为1的事件不一定必然发生。
进入主题:
概率分布:给出了所有取值及其对应的概率(少一个也不行),只对离散型变量有意义。例如:
概率函数:用函数形式给出每个取值发生的概率,P(x)(x=x1,x2,x3,……),只对离散型变量有意义,实际上是对概率分布的数学描述。
概率分布和概率函数只对离散型变量有意义,那如何描述连续型变量呢?
答案就是“概率分布函数F(x)”和“概率密度函数f(x)”,当然这两者也是可以描述离散型变量的。
概率分布函数F(x):给出取值小于某个值的概率,是概率的累加形式,即:
F(xi)=P(x<xi)=sum(P(x1),P(x2),……,P(xi))(对于离散型变量)或求积分(对于连续型变量,见后图)。
概率分布函数F(x)的性质:
概率分布函数F(x)的作用:如下图
(1)给出x落在某区间(a,b]内的概率:P(a<x≤b)=F(b)-F(a)
(2)根据F(x)的斜率判断“区间概率”P(A<x≤B)的变化(实际上就是后面要说的概率密度函数f(x))(特别注意:是判断“区间概率”,即x落在(A,B]中的概率,而不是x取某个确定值的概率,这是连续型变量和离散型变量的本质区别)
某区间(A,B]内,F(x)越倾斜,表示x落在该区间内的概率P(A<x≤B) 越大。如图中(a,b]区间内F(x)的斜率最大,如果将整个取值区间以δx=b-a的间隔等距分开,则x落在(a,b]内的概率最大。为什么?因为P(A<x≤B) )=F(B)-F(A),所有区间中只有在(a,b]这个区间上(即A=a,B=b)F(B)-F(A)达到最大值,也就是图中竖向红色线段最长。
概率密度函数f(x):给出了变量落在某值xi邻域内(或者某个区间内)的概率变化快慢,概率密度函数的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率。
连续型变量的概率、概率分布函数、概率密度函数之间的关系(以正态分布为例)如下图:
对于正态分布而言,x落在u附近的概率最大,而F(x)是概率的累加和,因此在u附近F(x)的递增变化最快,即F(x)曲线在(u,F(u))这一点的切线的斜率最大,这个斜率就等于f(u)。x落在a和b之间的概率为F(b)-F(a)(图中的红色小线段),而在概率密度曲线中则是f(x)与ab围成的面积S。如下图所示:
概率密度函数在某点a的值f(a)的物理意义到底是什么?
我们知道f(a)表示,概率分布函数F(x)在a点的变化率(或导数);其物理意义实际上就是x落在a点附近的无穷小邻域内的概率,但不是落在a点的概率(前已述及,连续变量单点概率=0),用数学语言描述就是: