CDA level 1 抽样估计&假设检验

CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%; 共分5个知识方向,考试占比分布如下:数据分析概念,方法论 流程 5% 描述性统计分析 12% 推断性统计分析8% 方差分析2% 一元线性回归分析3%;

推断性统计分析,考试分布占比8%

一、抽样估计:

大纲要求:随机事件的概率,抽样平均误差的概念与数学性质,点估计和区间估计方法的特别与优缺点,全体总体与样本总体,参数和统计量,重复抽样和不重复抽样,抽样误差,中心极限定理的意义与应用。

随机事件: 一个被赋予几率的事物集合。也就是样本空间中的一个子集。 在一次随机试验中,某个特定事件可能出现也可能不出现,但当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。

随机变量:设随机试验的样本空间S={e},X=X(e)是定义在样本空间S上的单值实值函数,称X为随机变量。

正态分布及三大分布的函数形式和图像形式

正态分布是关于均值左右对称的,呈钟形,其次,正态分布的举止和标准差具有代表性 ,均值=中位数=众数变量取值两倍标准差内出现的概率约为95%,这表明该变量出现大于或小于均值减2倍标准差的概率约为2.5%;

泊松分布,伽玛分布,对数正态分布;其中对数正态分布在统计分析中运用最为广泛。精确度要求并不严格----对数正态分布,精确度要求较高----泊松分布,伽玛分布

中心极限定理:从均值为μ,方差为σ方的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ方/n的正态分布。如果做多次抽样,会得到多个X拔,这些X拔排起来呈正态分布。他们的平均数是μ,标准差为σ/根号n。

大概有68%的X拔会落在μ+-σ/根号n之间,有95%的X拔会落在μ+-2σ/根号n,有99.7%的X拔会落在μ+-3σ/根号n

条件:1,总体本身的分布不要求正态分布

上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。(神奇!)  

           2,样本每组要足够大,但也不需要太大取样本的时候,

一般认为,每组大于等于30个,即可让中心极限定理发挥作用。

点估计和区间估计:

用样本平均数X拔来估计总体平均数μ称为点估计

区间估计:X拔+-2σ/根号n 这个区间包含着全体平均数μ的机会有95%;

68%,95%,99.7%称为置信水平。置信水平越高,估计得区间也越宽。

估计σ(总体的标准差):用X拔估计μ,首先需要估计σ(总体的标准差),有两个方法:1,用样本观察值的标准差来估计 S方=(样本取值-X拔)的平方之和除以(n-1);但是这个方法要必须做完抽样;2,速简方式。原理(若以平均数为中心,左右3各标准差的距离大概可以网络99.7的数据,即最小数到最大数之间有6个σ)我们可以计算该组数据的最大值和最小值的差,然后再除以6,就是对σ的速简估计。

抽样的多种组织形式:简单随机抽样(simple random sampling,srs)

                                    等距抽样(systematic sampling)

                                    分层随机抽样(stratified random sampling)

                                     集群抽样(cluster sampling)

                                     两段集群抽样(two-stage cluster sampling)

抽样误差和样本数的关系:95%的置信区间一般作为抽样设计的通常设置。因此2σ/根号n是我们决定样本数和误差大小的主要依据(第九届考试中此类计算题涉及了三-四题)。

样本容量的影响因素包括 置信区间的选择,样本环境的复杂程度,使用模型的复杂程度。

二、假设检验

大纲要求:P值得含义及计算,如何利用p值进行检验,Z检验统计量,t检验统计量,F检验统计量,卡方检验统计量的函数形式和检验步骤;

假设检验的基本概念,基本步骤和两类错误:

基本步骤:

1,建立原假设H0成立,备择假设H1;原假设H0:μ1=μ2(或者μ1>=μ2或μ1<=μ2);备泽假设:μ1<>μ2(或μ1<μ2,或μ1>μ2),一般假设H0为真,对其统计检验,H0与H1对立,两者择1;

2,确定小概率事件的届值。一般情况下将P<0.05或P<0.01作为小概率的界值;

3,获取样本;

4,选择检验方法

5,确定P值,

根据数据得出结论假设检验的两类错误:

1,H0为真,拒绝H0 为α型错误,当虚无假设(H0)正确时,而拒绝H0所犯的错误。这意味着研究者的结论并不正确,即观察到了实际上并不存在的处理效应。

可能产生原因:1、样本中极端数值。2、采用决策标准较宽松。

2,H0为假,接受H0,为β型错误。是指虚无假设错误时,反而接受虚无假设的情况,即没有观察到存在的处理效应。

可能产生的原因:1、实验设计不灵敏。2、样本数据变异性过大。3、处理效应本身比较小。

接受或拒绝假设并不等于100%正确,两类错误的概率想加并不一定等于1,样本量不变的情况下,α和β不能同时增大或减小。

犯Ⅰ类错误得危害较大,由于报告了本来不存在的现象,则因此现象而衍生出的后续研究、应用的危害将是不可估量的。相对而言,Ⅱ类错误的危害则相对较小,因为研究者如果对自己的假设很有信心,可能会重新设计实验,再次来过,直到得到自己满意的结果(但是如果对本就错误的观点坚持的话,可能会演变成Ⅰ类错误)。

统计量(z,t,F,卡方)的函数形式,利用P值进行检验的步骤:

一个总体,总体均值的假设检验,总体正态分布:方差已知:可以用样本均值的标准误差,临界比率Z=(X拔-μ0)/(σ/根号n)方差未知:小样本,小于30,适用于T检验

     t=(X拔-μ0)/(S/根号n)

一个总体,总体均值的假设检验,总体非正态分布:方差未知:大样本,用非参数检验,n的样本量较大,服从近似正态分布,适用于Z检验

Z=(X拔-μ0)/(S/根号n)

用于单个总体的方差检验,卡方检验: χ2=(n-1)S方/σ方 χ2(n-1)

两个总体的方差检验,F检验:F=S1方/S2方~ F(n1-1,n2-1)

P值是一种概率,可以表示对原假设的支持程度。是用于确定是否应该拒绝原假设的一种方法,当P值小于显著性水平时,要拒绝原假设,否则就无法拒绝原假设

如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。

如果0.01<p值<0.05,说明结果更倾向于接受假定的参数取值。

如果p值>0.5,说明结果更倾向于接受假定的参数取值。

左侧检验


右侧检验


双侧检验


假设检验的基本思想: 业务流程的数据分析与假设检验的流程是 一致的。

t检验可分为单总体检验和双总体检验,以及配对样本检验

单总体t检验:检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。 单总体t检验统计量为:


双总体t检验是检验:两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是独立样本t检验(各实验处理组之间毫无相关存在,即为独立样本),该检验用于检验两组非相关样本被试所获得的数据的差异性;一是配对样本t检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。

 (1)独立样本t检验统计量为:用于检验两样本是否来自相同均值的总体 适用条件,小小样本,n<30,且总体标准差σ未知的正态分布样本。


 S12和 S22为两样本方差;n1 和n2 为两样本容量。

 (2)配对样本检验 可视为单样本t检验的扩展,不过检验的对象由一群来自常态分配独立样本更改为二群配对样本之观测值之差。若二配对样本x1i与x2i之差为di=x1i−x2i独立,且来自常态分配,则di之母体期望值μ是否为μ0可利用以下统计量:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容

  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,609评论 1 12
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,796评论 0 3
  • 用stata算集中指数采用Stata系统自带数据库auto.dta。 一、集中趋势的统计描述以变量price为例进...
    古洞洞阅读 5,849评论 1 3
  • 为了学统计同时看了《行为科学统计》、《行为统计学基础》、《商务与经济统计》、《深入浅出统计学》。都是好书,但推荐前...
    TaraChen阅读 7,022评论 3 8
  • 通常在研究中,我们会对已有的一些结论或者主张抱有合理的质疑 reasonable doubt,此时该如何通过概率统...
    拓季阅读 11,349评论 1 17