眼见不一定为实!
我想很多人一定都深有体会,但是如何从统计上规避这种风险是有学问的,我们今天就来说说如何证明眼前的是对的。
我们今天说的事情在统计学上叫:“显著性差异”。眼见即为:原假设,是否为实即为备择假设。
那么什么是显著性检验?它与统计假设检验有什么关系?为什么要做显著性检验?
下面让我们一一进行解释:
“显著性检验”实际上是英文significance test的汉语译名。在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis testing)的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。实际上,了解显著性检验的“宗门背景”(统计假设检验)更有助于一个科研新手理解显著性检验。“统计假设检验”这一正名实际上指出了“显著性检验”的前提条件是“统计假设”,换言之“无假设,不检验”。任何人在使用显著性检验之前必须在心里明白自己的科研假设是什么,否则显著性检验就是“水中月,镜中花”,可望而不可即。用更通俗的话来说就是要先对科研数据做一个假设,然后用检验来检查假设对不对。一般而言,把要检验的假设称之为原假设,记为H0;把与H0相对应(相反)的假设称之为备择假设,记为H1。
如果原假设为真,而检验的结论却劝你放弃原假设。此时,我们把这种错误称之为第一类错误。通常把第一类错误出现的概率记为α
如果原假设不真,而检验的结论却劝你不放弃原假设。此时,我们把这种错误称之为第二类错误。通常把第二类错误出现的概率记为β
通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。我们把这样的假设检验称为显著性检验,概率α称为显著性水平。显著性水平是数学界约定俗成的,一般有α =0.05,0.025.0.01这三种情况。代表着显著性检验的结论错误率必须低于5%或2.5%或1%(统计学中,通常把在现实世界中发生几率小于5%的事件称之为“不可能事件”)。(以上这一段话实际上讲授了显著性检验与统计假设检验的关系)
为了方便接下来的讲授,这里举一个例子。赵先生开了一家日用百货公司,该公司分别在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额,集合中的每一个数代表着一年中某一个月的公司销售额。
郑州分公司Z = {23,25,26,27,23,24,22,23,25,29,30}
杭州分公司H = {24,25,23,26,27,25,25,28,30,31,29}
现在,赵先生想要知道两个公司的销售额是否有存在明显的差异(是否存在郑州分公司销售额>杭州分公司销售额,抑或反之),以便对接下来公司的战略业务调整做出规划。下属们知道赵老板的难处,纷纷建议“只需要求平均值就知道哪个分公司的销售额更大了”。但是作为拥有高学历的赵先生懂得这样一件哲学即“我们生活在概率的世界之中”。那也就意味着,平均值并不能够说明什么问题,即便杭州分公司的销售额平均值大于郑州分公司的销售额平均值仍然不能说明杭州分公司的销售额一定就大于郑州分公司的销售额,因为“这样一种看似存在的大于关系实质上是偶然造成的而并不是一种必然”。
赵先生最终决定,使用方差验检查这两个数据。(请先忽略为什么用方差检验,检验方法的选择下文中会详述)
最后赵先生发现,方差检验的p 值= 0.2027,那也就意味着,虽然杭州分公司的年平均销售额26.63大于郑州分公司的销售额25.18,但是实质上,两个分公司的销售额并没有明显的差异。
1.什么是统计假设检验?
所谓统计假设检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合理。而把只限定第一类错误概率的统计假设检验就称之为显著性检验。在上例中,我们的假设就是一种显著性检验。因为方差检验不适用于估计参数和估计总体分布,而是用于检验试验的两个组间是否有差异。而方差检验正是用于检测我们所关心的是这两个集合(两个分布)的均值是否存在差异。
2.为什么要做显著性检验?
因为我们想要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 在我们的例子中,差异就是H的均值要高于Z的均值,但是最终的结论p>0.05证明,这个差异纯属机会变异(H均值>Z均值是偶然的,当H和Z的采样点数趋于无穷多时,H的均值会趋近等于Z的均值)而不是假设与真实情况不一致。如果p值<0.05,那么也就意味着我们的假设(H集合和Z集合没差别)与真实情况不一致,这就使得假设不成立,即H集合和Z集合有差别。
那么如何做显著性差异分析呢?
利用excel2007为例,为大家讲解如何利用excel来进行数据差异显著性分析。
数据分析,以比较男女两组身高差异为例。
首先打开excel,输入好我们的数据,记住数据要横排输入,看图,点击顶栏的“数据”选项卡,观察左上角是否有“数据分析“这个功能模块(看下图),如果没有,请按照下面方法先进行添加。
首先,单击左上角的office图表,点击”excel选项 ”,在弹框中,选择“ 加载项 ”,在下方的“ 管理 ”选项中,选择”excel加载项“,点击" 转到 ",在弹出的”加载宏“,界面里,勾选”分析工具库“,点击确定即可。步骤较多,大家看图操作。
这时候,我们在右上角就可以看到”数据分析“选项卡了。
接下来,点击”数据分析“选项卡,在方差分析里面选择”无重复双因素分析“
在”输入区域“将我们的数据包括分组名称全部选进去,在”输出区域“,点击文中空白位置即可。点击确定。
弹框就是我们要的结果的分析。对于专业的同学这张表看起来很轻松。对于没有进行过数据分析学习的同学来说可能就是一头雾水了。下面简单给大家讲一下如何进行结果分析。
对于结果中我们需要注意的其实就只有三个部分,(图中已经表示出了)
F ,P-value, F crit
如果F 大于 F crit,那么恭喜你,已经比对出了差异,在结合P-value,
若P-value大于0.01,小于0.05,表示差异显著;若P-value小于0.01,则表示差异极显著。
如果F 小于 F crit,那么P-value肯定高于0.05,则表示两组数据无差异。