随机抽样
我们之所以对于抽样感兴趣,不是为了寻求各种各样奇异的考试题,而是在真实的环境中,我们需要通过抽样得到的统计数据来对总体的某些方面的特征做一个估计或者推理。例如,采用样本均值对总体的均值进行一个估计,采用样本方差对总体的方差进行一个估计,或采用样本中具有某个特征的元素的比例对总体中具有这个特征的元素的比例做一个估计。我们知道这种估计或推理不可能是完全准确的,如何评估这个估计的准确性正是抽样分布研究的内容之一。
上文这种点对点的估计方式称为点估计 Point estimation,被选定的样本统计特征称为点估计量 Point estimator,相应的样本统计值称为总体特征的点估计值 Point estimate。为了便于定量的统计研究,我们将总体的特征以数值形式表示并将其称为参数。
包含有限个元素的总体的抽样方法
当我们从一个数量为 N 的包含有限个元素的总体中进行抽样的时候,最简单的抽样方法就是随机逐个抽取或一次性抽取其中的 n 个元素构成一个样本集,抽取时需要满足总体中任意包含 n 个元素的样本集都有相同的概率被抽到,这种抽样方法称为简单随机抽样。简单随机抽样中,如果被抽出的元素可以被放回,即每一个元素被抽到的概率都是 1/N,这种抽样方式称为有放回抽样 Sampling with replacement,反之对于抽出的样本不再放回的抽样方式称为无放回抽样 Sampling without replacement,这里我们默认采用的是无放回的方式。
包含无限个元素的总体的抽样方法
很多情况下被研究的总体是一个非常大的数值,或者可能是一个持续增加的过程,那么此时可以认为这个总体包含无限多个元素。对于此类总体的随机抽样需要满足:
每一个被抽样的元素来自于同一个总体
每一个被抽样的元素都是独立抽取的
这两个看似简单的要求在实际应用中是极其容易被敷衍的,也是很多统计数据不可信的原因,需要针对实际应用加以甄别。例如:
如果考察的对象是一个灌装生产线的容积满足问题,那么需要注意的是这些样本就需要在生产的同一时间/批次中进行抽取
如果考察的对象是一个餐厅里的顾客的满意程度,那么顾客选择的侧重点则是要满足第二条,即选择的独立性。例如不应该让调查者根据自己的喜好来随意挑选顾客,而是需要设计其他的随机元素来辅助:麦当劳对这个类似活动的选择方式是每一次有顾客出示优惠券,那么排在他下一位的顾客即可作为被抽样的对象
抽样分布
从一个大的总体中随机抽取 n 个元素构成一个样本集时,如果采用一次性抽取的方式,则样本集的构成有 N! / [n!(N-n)!] 个,因此我们完全可以相信不同的样本集中获取的点估计量的点估计值是完全可以不同的,也即不同的抽样得到的点估计值与总体参数之间存在误差,这个误差被称为采样误差 sampling error。我们想要了解这些点估计量的值的分布情况的目的就是为了确保我们在使用这些点估计值进行总体估计的时候能够清楚的知道误差的范围到底有多大,该如何去调整抽样的大小或采取相应的校正以使得其可以更加准确的近似总体的参数。
实际上前面提到的这些抽样得到的统计量都可以被看作是随机变量,因此可以通过前述的频数统计、可视化、最大值、最小值、百分位值、期望和方差等描述统计学工具来研究其分布形态。这些来自于同一总体的包含同样数量元素的多次抽样得到的统计值的分布形态称为抽样分布。如果我们按照之前的方法,如频数统计并通过直方图可视化的统计这些统计值,会发现这些来自不同样本集的统计值在整体上近似呈正态分布。
这里需要注意的是,我们在研究这些抽样分布时并未穷尽总体中所有可能的样本集,而是所有可能的样本集的一个子集,也即样本集的样本集来进行研究,这一点充分体现了统计学的研究逻辑。
x̄ 的抽样分布
x̄ 的抽样分布是对通过抽样得到的所有可能的多个样本集的各自的 x̄ 的分布状态的研究,再一次地,由于 x̄ 是一个随机变量,因此可以同任意随机变量一样计算其期望、方差。在这里有:
E(x̄) = μ,即简单随机抽样的多个样本集的均值的期望值/均值等于总体的均值,具有这种属性的点估计量称为无偏差估计量 Unbiased estimator
-
如果我们沿用之前的约定,用 N 表示总体中包含的元素的数量,n 表示样本集中包含的元素的数量,σ 表示总体的标准差,σx̄ 表示抽样得到的多个样本集的均值的标准差,则有:
对于含有有限个元素的总体:σx̄ = (N - n)1/2σ / n1/2 / (N - 1)1/2
对于含有无限个元素的总体:σx̄ = σ / n1/2
其中 (N - n)1/2 / (N - 1)1/2 称为包含有限个元素的总体的校正系数 Finite population correction factor,但在大部分的应用中,由于总体的元素数量都远大于抽样样本中所包含的元素的数量,此时这个系数近似等于 1,因此在 n / N ≤ 0.05 的含有有限个元素的总体和含有无限个元素的总体中都可以采用 σx̄ = σ / n1/2 来计算抽样得到的样本集的均值的方差。
在后续学习及推理统计学中为了便于区分总体参数的标准差和对应的点估计量的标准差,我们将点估计量的标准差命名为标准误差 Standard error,当这个点估计量是 x̄ 时,σx̄ 就是 x̄ 的标准误差。
上文中 x̄ 的直方图近似呈正态分布不是一个偶然:
当总体服从正态分布时,无论抽样样本集所包含的元素的数量是多少,样本均值 x̄ 的抽样分布都服从正态分布
当总体不服从正态分布时,中心极限定理告诉我们当 n 足够大时,抽样样本集的均值 x̄ 的抽样分布依然服从正态分布
由上图可以看出随着样本量的增加,均值的抽样分布逐渐逼近正态分布。在实际应用中,一般当抽样样本量大于 30 时就可以认为样本均值服从正态分布,当数据极度偏斜时,可以将样本量扩大到 50。x̄ 的抽样分布的重要意义在于其描述了来自不同样本集的 x̄ 围绕总体均值 μ 的分布情况,也提供了任意一个 x̄ 的取值与总体均值 μ 的差异情况。
在了解了均值的抽样分布的基础上,我们就可以知道任意一个抽样得到的均值有多大的概率可以在误差允许范围内近似总体的均值。因为抽样均值服从均值为总体均值 μ,标准误差为总体均方差 σ 除以样本集中包含的样本数量的平方根 n1/2 的正态分布,因此我们想要了解抽样均值落在总体均值某个误差范围内的概率就可以借助标准正态分布进行计算。假设我们设定可以接受的围绕总体均值的误差范围设置为 (xlower,xupper),则有:zlower = (xlower - μ) n1/2 / σ, zupper = (xupper - μ) n1/2 / σ,对于任意一个抽样样本集得到的 x̄,其落在这个误差范围内的概率为 P(zupper) - P(zlower) 。
从这个计算也可以看出,抽样误差的大小受到样本集中包含的样本数量的影响,并且随着样本数量的增加,抽样的均值的标准误差将变小,也即抽样均值的分布的离散程度变小,这也意味着从更大的抽样中得到的均值有更大的概率落在总体均值的某个误差范围内。
p̄ 的抽样分布
p̄ 为抽样样本集中具有某个特征的元素所占的比例,即 p̄ = x / n ,x 表示抽样样本集中具有某个特征的元素的数量,n 表示样本集中包含的元素的数量,其抽样分布的研究过程与 x̄ 类似,比较大的区别是样本集中的样本是否具有某个特征是一个二项分布,并且有:
E(p̄) = p,这里 p 表示具有某个特征的元素在总体中所占的比例,这个结果意味着多个抽样样本集中具有某个特征的元素所占的比例的期望值与总体中具有这个特征的元素所占的比例相等,即 p̄ 是 p 的一个无偏差 unbiased 的点估计量
-
沿用之前的约定,用 N 表示总体中所包含的元素的数量,σp̄ 表示多个抽样样本集中具有某个特征的元素所占的比例的标准差,则有:
对于含有有限个元素的总体:σp̄ = (N - n)1/2(p(1 - p))1/2 / [n1/2(N - 1)1/2]
对于含有无限个元素的总体:σp̄ = (p(1 - p))1/2 / n1/2
同样地,在 n / N ≤ 0.05 的含有有限个元素的总体和含有无限个元素的总体中都可以采用 σp̄ = (p(1 - p))1/2 / n1/2 来计算多个样本集中得到的具有某个特征的样本的比例的标准误差。
由于 p̄ 服从二项分布,而前面针对二项分布的讨论中提到,当 np ≥ 5 且 n(1 - p) ≥ 5 时,可以用正态分布来近似计算二项分布,即当抽样样本集包含的样本数量及具有某个特征的元素的比例满足上述条件时,多个抽样样本集中具有某个特征的元素的比例近似地服从均值为 p,方差为 σp̄ 的正态分布。至此,如果想了解抽样得到的比例有多大的可能性落在总体比例的某个误差范围内,则转化为一个正态分布的计算。
点估计量 Point estimators 的属性
从前面我们看到,在选择是否采用样本的某个统计值做为点估计量来近似总体的相关参数时,我们希望了解这个样本统计值对于总体的近似程度和分布情况。在这里我们针对三个方面对点估计量的属性进行研究:无偏性 unbiased,有效性 efficiency,一致性 consistency。
为了方便表述,我们将总体的参数用 y 表示,抽样得到的统计值用 ŷ 来表示。
无偏性
如果抽样的到的统计值的均值/期望满足 E(ŷ) = y,那么就称 ŷ 是 y 的一个无偏估计量。
对于某些估计量来说,由于抽样得到的统计值的期望会大于或小于总体的参数,如果直接用他们做为总体的估计就会高估或低估总体的值,这时就需要对样本的统计值做一定的校正。例如在样本的标准误差计算时,我们在分母选择用 n - 1 代替 n 就是为了使得 E(s) = σ,即使得样本的标准误差成为总体标准差的一个无偏估计量。
有效性
如果同一个抽样样本集中可以得到两个无偏统计值来对总体的同一个参数进行估计,那么我们理所应当会选择二者中均方差更小的那个,我们称这个相对较小均方差的估计量相比另一个估计量具有更高的有效性。例如如果从服从正态分布的总体中抽取样本,那么通过计算可以发现样本均值的方差小于样本中值的方差,因此我们会选择样本均值作为总体均值的更加有效的估计量。
一致性
如果随着样本量的增加,样本统计值总是倾向于对总体的参数的估计更加准确,这就是估计量的一致性。例如 σx̄ 和 σp̄ 随着 n 的增加会减小就反映了 x̄ 和 p̄ 是两个一致性很好的估计量。
免责声明
我写这个笔记是为了系统的复习概率论中的一些概念,阅读的是 Statistics for Business and Economics, 12th Edition 英文原版,这是一本非常经典的参考书,毫无保留的满分推荐。尽管书名暗示了是在商业和经济学中的统计学,但根本的统计学知识是不变量,并且和很多优秀的原版书一样,作者时刻注意用实例来讲解统计学概念,基本上每一个新的概念的定义都建立在日常生活的实例的基础上,在此基础上还保留了精美的排版和精心设计的插图,十分便于理解。
笔记最重要的一个目的就是记录者复习的重要资料,如果能对别人也有所帮助那就是额外的奖赏了,所以为了复习方便我擅自截取了书中的很多插图,这些插图仅限于个人学习使用。其他人请勿直接转载,如转载请删除插图并附带这则免责声明,否则由此而产生的版权问题,请转载者自行承担。