定量分析课程笔记(2)

写在前面

距离上次的笔记已经过了一个月了,下周三定量分析大作业的deadline要到了,现在作业还完全没动,不会写。打算通过这篇笔记回忆一下上课都讲了些什么。上篇讲到了BOX-COX变化,这篇从散点图开始。


散点图Scatter-Plot

散点图通过一个X-Y坐标轴来展现两个因素之间的相关性,是正相关、负相关、曲线相关还是不相关,相关的强度如何。另外,散点图也能帮助我们发现singular point(奇异点),来发现一些问题。

使用案例:在奥运会上,110米跨栏这个项目时不时会打破之前的世界纪录,产生新的最好成绩。那么,人类在110米跨栏这个项目的上的成绩与时间有什么样的关系?我们可以通过每届奥运会110米栏的最佳成绩,来画出以下的散点图。得出这样一个结论:人类110米栏的水平是越来越高的,并且从图形来看,近似线性关系。

同时我们也注意到,在1896第一届奥运会的时候,最好成绩是17.6S,使整个图形有些偏离线性关系,这就是一个奇异点。猜测的原因可能是:1、战争因素:人们没有很愿意参加。2、技术因素:由于是第一次奥运会,可能计时方法不太对,计时不准。

110米栏人类最佳成绩与年份间的关系

相关性系数:

相关性系数是用以反映变量之间相关关系密切程度的统计指标,为正代表正相关,负为负相关。计算方法是两个变量的协方差除以单体标准差的积。abs|r(x,y)|越接近1,说明相关性越强。越接近0说明相关性越弱。ps:相关性跟因果关系是两个概念,定量分析上跟多的是分析相关性,因果关系需要基于杨哥科学设计的随机试验。

相关性系数公式

minitab中的位置:图形->散点图;统计->基本量统计->相关


检验假设

这部分理解每周检验的核心即可,不需要完全理解其数学含义。前面所介绍的各种图,主要还是为了给人以直观的感受,去粗略的做一些判断,相对来讲还处在一种“主观判断”的模式上。假设检验是一种更为严谨、也更为客观的方式。假设检验的思想是:

任何基于“数据”所下的结论,都会有犯错的可能性。理论上,我们可以控制这个犯错可能性的大小,来保证结论可信。

也就是说,假设检验不能保证结论100%正确,但是能保证结论是可信的,至于什么是可信,就是假设检验重点描述的东西。任何一个结论都可能会范两类错误,第一类:拒真。第二类:不拒伪。

假设检验中的I类与II类错误

在很多生活场景中的假设被设计成第一类错误是比第二类错误严重,因为犯一类错误的期望(可能性)常常是小于二类错误的。想犯第一类错误,需要主动拒绝原假设,这样犯一类错误就是主动、有成本的。而犯二类错误相比一类错误成本是更低的,比如司法体制中的举证实际上就是基于所有公民都没罪假设的,如果想判刑,需要拿出证据来拒绝“无罪”的原假设。而实际上有罪的人,再没人指控的情况下,可能不需要证明自己是无罪的,没有拒绝原假设,犯了二类错误。相比于人人需要自证清白的方式,这种方式降低了错判的可能性的同时也增加了漏判的可能性。是大多数国家司法体制中的“无罪推定”原则。总结来说,在做假设检验的时候,应该把我们“倾向”的结论作为原假设。

假设检验一般分为4个步骤:1、定义原假设和备选假设。2、开发并计算检验统计量。3、寻找统计分布,计算拒绝域。4、决策。


Z检验(单样本)

Z检验(Z Test)是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。首先做出原假设,比如u1=u2,即假定u1与u2无显著差异。然后计算Z值。最后拿计算出来的Z值推断发生概率P,得出假设的可信度。

Z值计算公式,X样本平均值,u已知总体平均值,S已知总体标准差,n样本容量

案例:还是接着上一篇,面包师是否偷工减料的问题。这次,我们随机抽查了25个PIE,并测量出了直径,同时我们已知对于PIE的直径总体来说,它的标准差是2。根据这些条件,我们首先做出原假设:面包店里的模具直径大于等于20cm,即u>=20。z = X样本均值-20.。根据上面z的计算的公式,可以得出z值为-0.985,假定I类错误的概率a=5%(通常为这个值),通过查标准正态分布表,我们可以查出,z0.05=-1.645;z>z0.05是不在拒绝域内的,因此无法拒绝原假设。面包师没有偷工减料。上面的计算过程也可以用minitab直接算出。p代表,如果要拒绝目前假设,那我们允许的I类错误概率是多少(前面要求是5%)。

科学家没有接受这个结论,他继续搜集了25次数据,进行了重复试验。计算过程我们就不展开了,这里直接说结论。其中FirstSample是前25次,ALL是全部50次。结果如下,第一次的p>5%,不能拒绝原假设。第二次p<5%,拒绝原假设。

Z-Test结果

minitab中位置:统计->基本量统计->Z检验;图形->概率分布图

置信区间

概念:100(1-a)%置信区间:以100(1-a)%覆盖参数真值的一个区间。简单点说,就是目标值在某个范围内的概率是100(1-a)%的意思,这个比较好理解。这里要说明的是,95%置信区间不等价于我们在上一部分所得出的拒绝域的范围,在正态分布中,置信区间把左右两侧的不可信的部分都刨除了,而上面Z检验部分,我们只考虑了单向的拒绝域。这是跟我们的假设有关的。

Z检验下的置信区间


变换假设后的Z-Test结果

T检验(单样本及双样本)

T检验和Z检验很类似,主要的区别在于,T检验主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。例子如下:跟上面Z检验很类似。

T-Test单样本

双样本T检验公式

双样本案例:在上一篇介绍cox-box变化,人工降雨的案例中,我们最终通过cox-box变化得到了符合正态分布的数据。从直观上来看,人工降雨跟非人工降雨是有差距的。接下来我们接着这个案例,要回答的一个问题就是这个结论有多可信。首先我们假设这两组数据的差值是为0的。最终的结果如下,人工降雨的确是有效的。

双样本T检验公式
人工降雨案例中T检验双样本结果

minitab中位置:统计->基本量统计->T检验(双样本);

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容