4.t检验分析两样本均值
除了按照上面的方法,根据两样本的方差求出两样本的期望之差外,我们还可以引入假设检验对它们的差进行检验。先前在假设性检验的时候就已经讲了H0原假设和H1备择假设,也求出了一个假设的拒绝域。同样的,我们也可以根据假设性检验的相关检验来检验两样本期望,而这里,我们假设H0为E(Xa)=E(Xb),H1取H0反面,而标准则是以p为0.05为准,如果p小于0.05,我们接受原假设,大于则拒绝。在先前的章节中,我们又介绍了t的相关公式,比如H0为E(X)=0,那么,我们T的计算公式则为:
在R语言里,我们常用qt()函数计算t分布的分位数,比如,qt(0.975,n-1)计算的就是t分布当中自由度为n,分位为97.5%的分位数,也可表示成事件{|T|>qt(0.975,n-1)},而P({|T|>t})就是表示R里通常看到的p值。同样的,假设H0:E(Xa)-E(Xb)=0,那么,根据上面T值公式可得:
又回到刚刚的耗油量之差的例子,先前我们已经把里面的样本均值和方差算出来了,因此,我们得到它们的t值是:
因此,我们算出来的p值为P(|T|>2.425531)=2×[1-P(|T|<=2.425531)],根据这个结果,我们在R模拟一下:
2*(1-pt(2.4255,191.561))
两样本方差比较
之前,我们已经介绍了如何用期望、置信区间和t检验进行两样本的比较;接下来,我们还要介绍一种方法来比较两个样本,它就是方差比较。
首先,我们在讲第11章就讲了讲卡方分布。卡方分布就是假设一个标准正态分布有X1,X2……Xn这n个随机变量,而它们的随机平方和由组成一个新的分布的就称之为卡方分布;而卡方检验就是在假设性统计里,统计推断值和实际值的偏差,以卡方值表示。卡方值越大,即它们的偏差就越大,反之亦然,如果为0,即它们没有任何偏差。
而这里,我们要介绍的是F检验法。我们还是假设两个样本的方差分别为Sa和Sb。构造F分布的时候,我们可以根据它们两个样本的方差构造得:
其中,左边就是分别构造两样本的方差估计值和实际值的比率,之所以要构造这个比例,就是因为F分布的计算标准就是根据比率进行的,因此我们也就得到了上面的那个公司。
在R里面,qf()函数计算F分布的分位数,一般形式为qf(σ,dfa,dfb),其中,σ表示求哪个分位的分位数,dfa和dfb分布代表样本a和样本b的自由度。
现在,根据F分布的公式,再结合qf()函数来构造它的95%置信区间,得:
根据这个公式,我们可以得到:
现在,我们假设H0:Var(Xa)/Var(Xb)=1,而原假设的拒绝域为Fqf(0.975,qfa,qfb),而p则为2P(F>f)=2[1-P(F<=f)],它在f<1条件下成立。衡量的标准还是p值是否达到0.05。现在,再次回到之前的耗油量之差的例子,用R模拟过程和结构如下:
var.test(dif.mpg~heavy)
我们看到p值仅为0.16663,小于0.05,这时,我们要拒绝原假设,即,Var(Xa)和Var(Xb)不相同。同时,从这份报告中,我们还看到比率的95%置信区间为[0.4189200,0.9162126],而样本的比率方差,在最后一行可以看到,是0.6196502;而这一个值,就是由先前我们在求耗油量之差时求出来的,Sa2/Sb2得来的,具体Sa和Sb可以根据先前的结果查看。这里,再说一下p,根据耗油量之差,我们可以用相关函数pf()模拟计算,过程如下:
2*pf(0.6196502,102,101)
最后,我们算一算两样本方差比率的95%置信区间,过程结果如下:
qf(0.025,102,101)
qf(0.975,102,101)
得到95%置信区间为[0.676317,1.479161]。
总结
这一部分的内容把样本的比较方法单独拿出来讲,说明比较两个样本的内容还是相当重要的,而且有很多的方法和相关理论需要掌握。
这部分内容,我们分别从均值、置信区间和方差这3个角度来比较这两个样本的大致情况。比较这两个样本的重要指标就是引入了t检验和F检验,也就是说,我们分别从t分布和F分布来间接比较这两个样本。
用均值进行两样本的比较,我们列举了汽车耗油量之差这个例子,把里面的数据分成2组,然后用t分布计算出相关的p值,并与p值的极值0.05进行比较,如果大于0.05,我们接受原假设,反之亦然。另外,我们在介绍比较两样本的方差之前,我们还通过构造t分布来比较两样本的均值,计算相关的t值和p值,并对比我们所求出的拒绝域;如果落入拒绝域,则原假设不成立,反之亦然。
用置信区间比较两样本,我们引入了两个样本的期望,同时也引入这两个样本的标准差,通过置信区间的计算公式,利用两样本的均值之差构造出95%置信区间,然后根据这个置信区间进行分析。
最后,我们还引入了F分布,通过构造两样本的方差之比进行F检验分析,同样比较它的p值是否达到0.05;如果达到,我们接受原假设,反之亦然。
从上面的文章,我们可以看到假设性检验的其中一种应用,它通过计算相关的值和我们原来的假设进行比较,作为我们的假设是否合理的一个重要指标。由于受限于水平以及课本所提到的内容,可能很多地方会有一些错误,也欢迎大家留言指出。当然,如果大家有什么疑问也可以到留言板上留言,我会尽自己的能力帮你解答。最后,由于文章讲的比较少,而且可能比较难以理解,同时也是读书笔记的形式来写的,所以我打算在后面一段时间,会从概率论与数理统计的角度,把这个系列的读书笔记里所提到的知识进行一个扩充,这样能更有助于你们理解统计学的相关内容。后面的章节,我们就要开始简单的讲述相关的统计模型;不过,由于已经快到本书的结尾,而本系列的比较也很快就写完了,所以如果大家还想看更多的统计模型,我后续也会以各种方式进行补充。
转载于:http://shujuren.org/article/98.html