一、如何深入理解p值的含义
首先,我们来看一下p值的定义:在原假设H0成立的条件下,发生与样本结果相同或更极端结果的概率。那么,什么叫与样本结果相同或更极端结果呢?我们以抛硬币这个例子来说明。
我们想通过假设检验的方法验证一枚硬币是否均匀,那么原假设H0为:正面朝上的概率为0.5(硬币是均匀的);备择假设H1为:正面朝上的概率不等于0.5(硬币是不均匀的)。现在随机抛该硬币5次,发现有4次正面朝上,那么在显著性水平为0.05的条件下,是否应该拒绝原假设呢?
首先需要考虑一个问题,这里的p值应该如何计算?按照定义,如果原价假设成立,即硬币是均匀的,出现4次正面朝上的概率为 0.15625,更极端情况下出现5次正面朝上的概率为0.03125 。此外,我们还应该考虑出现4次及以上反面朝上的概率,因为这也是背离原假设且比样本结果更极端的概率,这个概率为0.15625+0.03125=0.1875。因此,p值为上面所有情况的和0.375,因此,我们不能拒绝原假设,不能认为硬币是不均匀的。
从这里可以看出,这里的更极端结果,是指与样本结果相比,更加背离原假设的情况。因此,p值其实反映了样本在多大程度上或多大概率上背离原假设,如果p值越小,表明样本发生的概率越小,即更加背离原假设,当背离原假设到一定程度时(小于显著性水平),我们就会拒绝原假设。
二、对p值的错误理解
-
1、p值不代表原假设为真的概率
p值不反应原假设为真的概率,只是反映样本与原假设相悖的程度。原假设为真的概率,从某种程度上来说是固定的。在抛硬币的这个例子中,我们可以基于5次抛硬币的结果,利用贝叶斯公式来估计硬币均匀的概率,将"抛5次硬币,4次正面朝上"定义为事件A, "硬币是均匀的"定义为事件B1,"硬币是不均匀的"定义为事件B2,则条件概率为:
这里,原假设为真的概率为P(B1),是贝叶斯公式里的先验概率。因此,p值的大小并不代表原假设到底有多真或多假。
-
2、p值不能代表效应(差异)大小
在抛硬币这个例子中,如果p值显著,只能说明硬币是不均匀的,但是究竟有多不均匀,只通过p值大小无法确定。不能说p值越小,硬币就越不均匀。样本量是影响p值的一个因素,实际效应值较小,大样本情况下可能p值较小,得到显著的结果;实际效应值较大,样本数量不足情况下可能p值较大,无法得到显著结果。
三、影响p值的因素
- 总体分布的形态,确切的说是总体的方差。总体方差越大,p值越大,倾向于接受原假设。
- 样本的数量。样本数量增加,p值越小,倾向于拒绝原假设。
- 样本与总体的差异。差异越大,p值越小,倾向于拒绝原假设。