第十八章 非参数方法

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第十八章 非参数方法

前面的章节在统计推断中使用的都是参数方法。本章我们将介绍非参数方法,这种方法对总体概率分布形式的假定没有要求,因此也称为无分布方法

非参数方法允许数据不是数量型数据,也可以是分类型的。

18.1 符号检验

符号检验(sign test)是假设检验中一种多用途的非参数方法,利用p=0.5的二项分布作为抽样分布。

18.1.1 总体中位数假设检验

举例1:Lawler食品店的薯片周销售额的估计值是450美元,经理想要做一个检验。

  • 假设:H_0:中位数=450H_a:中位数 \neq 450

  • 把观测值(周销售额)和估计值(450)作比较,大的转化为'+',小的转化为'-',等于450的剔除掉。


    image
  • 在转换符号的时候,相当于一个10次试验的二项分布,每次试验独立且只有两种结果。因此令p为加号的概率。则转化假设:H_0:p=0.5,H_a:p \neq 0.5

  • 根据查表或计算机计算得到相应的概率,观测到的'+'个数为7,则我们计算加号个数为7、8、9或10的概率为0.1719(EXCEL:=1-BINOM.DIST(6,10,0.5,1)),p-值=0.1719 \times 2=0.3438>\alpha=0.1因此不能拒绝H_0(双侧检验需要乘以2)

    image

    当然也可以使用单侧检验。

举例2:一年前的住宅中位数236000美元,最近经济低迷,想了解中位数是否下降。

  • 假设:H_0:中位数\geq 236000美元H_a:中位数<236000美元取显著水平0.05
  • 取61个住宅,22个高于236000,38个低于236000,1个等于。即样本容量60,22个加号,38个减号。
  • 在计算概率时,我们可以用正态分布来近似。
    • H_0:p=0.5时,加号个数的抽样分布的正太近似其均值\mu=0.5n,标准差\sigma=\sqrt{0.25n}
    • 分布形式:n>20时近似正态分布。
  • 计算小于等于22的二项概率。使用近似的正态分布,那么我们知道区间(21.5,22.5)对应的面积是计数为22的二项概率,0.5是连续性校正因子。于是p-值=P(x\leq 22.5)=0.0264<0.05则认为中位数已经低于236000美元了。

符号检验的二项抽样分布还可以计算总体中位数的置信区间,利用计算机可以完成。

18.1.2 匹配样本的假设检验

例子:14名消费者面对两种橙汁品尝后选出喜爱的品牌,“热带橘”记为“-”,“柑橘谷”记为“+”。


image

剔除2名无偏好的消费者后,n=12,2个"+",10个“-”。

  • 假设:H_0:p=0.5,H_a:p \neq 0.5
  • 取显著水平0.05,计算加号个数为0,1,2的概率和=0.01929 \times 2=0.0385<0.05则拒绝H_0,认为口味偏好存在差异。

18.2 威尔科克森符号秩检验

威尔科克森符号秩检验是分析匹配样本实验数据的非参数方法。检验两个总体中位数是否有差异。
要求:

  • 检验使用数量型数据。
  • 不要求假定配对观测值之差服从正态分布,只需要对称分布。

例子:制造业企业想判断两种生产方法再完成时间上是否存在差异,选取11个工人分两次使用两种方法进行生产(首选方法随机挑选)。结果如下表:


image
  • 假设:
    • H_0:方法A的中位数-方法B的中位数=0
    • H_0:方法A的中位数-方法B的中位数 \neq 0
  • 剔除差异为0的工人,剩余工人n=10,计算差、绝对值、秩(绝对值从小到大的排序,相同的绝对值取所占的两个名次的均值,如并列第三占据了3名和4名,则秩为3.5)。
  • 将秩赋予原始差的符号


    image

其中T^+为正的秩的和。我们把T^+作为检验的统计量。

威尔科克森符号秩检验中T^+的抽样分布

  • 均值:\mu_{T^+}=\frac{n(n+1)}{4}
  • 标准差:\sigma_{T^+}=\sqrt{\frac{n(n+1)(2n+1)}{24}}
  • 分布形式:n \geq 10时,近似正态分布。

回到例子:我们计算得到\mu_{T^+}=27.5,\sigma_{T^+}=9.8107
计算得到P(T^+ \leq 49.5)=0.01247,双侧检验p-值=2\times 0.01247=0.02493<0.05所以拒绝H_0,故认为中位数存在差别。

注意:

  • 也可以使用单侧检验,
  • 总体中位数的非参数检验:推荐威尔科克森符号秩检验,要求总体分布对称。(对称,所以也可以用于总体均值的检验)
  • 如果总体分布偏斜,首选符号检验。
  • 威尔科克森符号秩检验也可用于计算总体中位数的置信区间。

18.3 曼-惠特尼-威尔科克森检验

本节介绍一种基于两个独立样本的两总体之间差异的非参数方法,可以用顺序型数据数量型数据,不需要假定总体服从正态分布。叫做曼-惠特尼-威尔科克森检验(Mann-Whitney-Wilcoxon test,MWW)

例子1(小样本):Showtime电影院有35名员工,影院经理给每个人的表现排了等级(1到35),并想知道其中的大学生和高中生是否有显著差异。

  • 假设:

    • H_0:大学生总体和高中生总体工作表现相同
    • H_a:大学生总体和高中生总体工作表现不同
  • 取显著水平0.05

  • 在大学生和高中生中分别随机抽取4名和5名,并根据表现排名。并求出两个样本的秩和。其中大学生的秩和(W)区间为[10,30]。


    image
  • 秩和的分布


    image
  • 计算概率:

    • P(W \leq 14)=0.0952
    • p-值=0.0952 \times 2=0.1904>0.05
  • 结论:两总体的表现不相同。

例子2(大样本):银行经理像判断两个分行的支票账户余额的总体是否相同。对两个独立账户进行抽样,数据如下:


image
  • 对观测值进行秩排序。


    image
  • 对账户按照分行进行分类,计算出每个分行的秩和。


    image
  • 同样使用样本1的秩和作为检验统计量W=169.5
  • 在假设两总体相同情况下,计算相同总体的W的抽样分布
    • 均值:\mu_W=n_1(n_1+n_2+1)/2
    • 标准差:\sigma_W=\sqrt{n_1n_2(n_1+n_2+1)/12}
    • 分布形式:当n_1\geq 7n_2\geq7时,近似正态分布。
    • 案例中的值:\mu_W=138,\sigma_W=15.1658
  • 取置信水平0.05
  • 计算p-值:W本身是离散型的,正态分布是连续的,所以我们使用连续性校正因子。P(W\geq169.5)=P(z\geq \frac{169-138}{15.1658})=0.02047,双侧检验的p-值=2\times 0.02047=0.04095\leq0.05所以拒绝H_0认为两个分行账户余额总体不相同。
    image

MWW检验的一些应用使其使用假定两个总体具有相同的形态,总体不同,也只是左右平移。若总体有相同的形态,则假设检验可以根据两总体中位数之差来陈述。假设形式如下:


image

18.4 克鲁斯卡尔-沃利斯检验

非参数的克鲁斯卡尔-沃利斯检验(Kruskal-Wallis test)的依据是对k个总体的k个独立随机样本的分析。

  • 要求:顺序型数据、数量型数据都可,不需要假定服从正态分布。
  • 假设的一般形式:
    • H_0:所有总体是相同的
    • H_a:并非所有总体是相同的

例子:威廉姆斯制造公司像判断招聘来自三所大学的学生年度业绩是否存在差异。A、B和C三所大学人数分别为7、6、7;总分100分,我们取显著水平0.05,数据如下:


image
  • 对样本数据排序,计算秩、秩和。


    image
  • 计算检验统计量H
    克鲁斯卡尔-沃利斯检验的统计量H=\left[\frac{12}{n_r(n_r+1)\sum_{i=1}^{k} \frac{R_i^2}{n_i} \right]-3(n_r+1)
    其中,k代表总体的个数;n_i代表样本i中观测值的个数,n_r=\sum_{i=1}^{k}n_i(即总观测数);R_i为样本i的秩和。
  • 理解:在总体相同的假设下,H的抽样分布近似服从自由度为k-1的\chi^2分布,且要求每个样本容量都要大于等于5。由于服从\chi^2分布,所以我们希望检验统计量H尽量小,因此克鲁斯卡尔-沃利斯检验总是一个上侧检验。
  • 例子中计算得到H=8.92,当\chi^2=8.92时的上侧面积为0.0116<0.05,因此拒绝H_0认为3所大学的业绩总体是不同的。

补充:克鲁斯卡尔-沃利斯检验的应用中,做出总体有相同的形态的假定是合适的,就算有不同也只是位置上的平移。如果k个总体均有相同形态,假设检验的行驶也可以改为:H_0:中位数_1=中位数_2= \cdots =中位数_k

18.5 秩相关

第三章介绍了皮尔逊积矩相关系数是计算两个数量型数据变量之间线性关系的度量。本节使用顺序或排秩数据时,我们给出两个变量之间联系的相关性度量。

斯皮尔曼秩相关系数r_s=1-\frac{6\sum_{i=1}^nd_i^2}{n(n^2-1)}
其中n为样本中观测值个数,d_i=x_i-y_ix_i为对于第一个变量的第i观测值的秩,y_i为对于第二个变量的第i观测值的秩。

例子:公司的10个销售人员在入职时给定了一个潜力排秩,工作两年后计算根据实际销售量的排秩。数据如下:


image
  • 计算相关系数


    image

我们还可以利用样本相关系数来推断总体秩相关系数\rho_s

  • 假设:H_0:\rho_s=0,H_0:\rho_s \neq0
  • r_s的抽样分布
    • 均值:\mu_{r_s}=0
    • 标准差:\sigma_{r_s}=\sqrt{\frac{1}{n-1}}
    • 分布形式:当n\geq 10时,近似正态分布
  • z=\frac{r_s-\mu_{r_s}}{\sigma_{r_s}}=2.20
  • 求上侧面积并乘以2得到p-值=2 \times (1-0.9861)=0.0278<0.05,因此拒绝H_0认为总体秩相关系数不为0,认为招聘时的销售潜力和实际销售业绩之间存在显著的秩相关关系。

链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,045评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,114评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,120评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,902评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,828评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,132评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,590评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,258评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,408评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,335评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,385评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,068评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,660评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,747评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,967评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,406评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,970评论 2 341

推荐阅读更多精彩内容

  • 检测一组数据是否为正态分布 (1)QQ图 Quantile-Quantile plot可以检视数据是否符合某种类型...
    果蝇饲养员的生信笔记阅读 6,314评论 0 1
  • 1. 基础概念及其定义 1.1 原假设()和备择假设()的建立 将研究中的假设作为备择假设例如,认为一种新型教学方...
    _诉说阅读 1,233评论 0 0
  • 俗话说得好,方差有三宝:独立、正态、齐性好。什么意思呢?就是说使用方差分析需要三个前提条件:1、各样本须是相互独立...
    spssau阅读 3,857评论 0 10
  • 一、t检验适用场景 依据中心极限定理,当样本量n足够大时,无论总体分布形态如何,样本均值都服从正态分布N(μ,δ2...
    BrooksLee100阅读 6,761评论 0 1
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,458评论 16 22