CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%; 共分5个知识方向,考试占比分布如下:数据分析概念,方法论 流程 5% 描述性统计分析 12% 推断性统计分析8% 方差分析2% 一元线性回归分析3%;
推断性统计分析,考试分布占比8%
一、抽样估计:
大纲要求:随机事件的概率,抽样平均误差的概念与数学性质,点估计和区间估计方法的特别与优缺点,全体总体与样本总体,参数和统计量,重复抽样和不重复抽样,抽样误差,中心极限定理的意义与应用。
随机事件: 一个被赋予几率的事物集合。也就是样本空间中的一个子集。 在一次随机试验中,某个特定事件可能出现也可能不出现,但当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。
随机变量:设随机试验的样本空间S={e},X=X(e)是定义在样本空间S上的单值实值函数,称X为随机变量。
正态分布及三大分布的函数形式和图像形式
正态分布是关于均值左右对称的,呈钟形,其次,正态分布的举止和标准差具有代表性 ,均值=中位数=众数变量取值两倍标准差内出现的概率约为95%,这表明该变量出现大于或小于均值减2倍标准差的概率约为2.5%;
泊松分布,伽玛分布,对数正态分布;其中对数正态分布在统计分析中运用最为广泛。精确度要求并不严格----对数正态分布,精确度要求较高----泊松分布,伽玛分布
中心极限定理:从均值为μ,方差为σ方的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ方/n的正态分布。如果做多次抽样,会得到多个X拔,这些X拔排起来呈正态分布。他们的平均数是μ,标准差为σ/根号n。
大概有68%的X拔会落在μ+-σ/根号n之间,有95%的X拔会落在μ+-2σ/根号n,有99.7%的X拔会落在μ+-3σ/根号n
条件:1,总体本身的分布不要求正态分布
上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。(神奇!)
2,样本每组要足够大,但也不需要太大取样本的时候,
一般认为,每组大于等于30个,即可让中心极限定理发挥作用。
点估计和区间估计:
用样本平均数X拔来估计总体平均数μ称为点估计。
区间估计:X拔+-2σ/根号n 这个区间包含着全体平均数μ的机会有95%;
68%,95%,99.7%称为置信水平。置信水平越高,估计得区间也越宽。
估计σ(总体的标准差):用X拔估计μ,首先需要估计σ(总体的标准差),有两个方法:1,用样本观察值的标准差来估计 S方=(样本取值-X拔)的平方之和除以(n-1);但是这个方法要必须做完抽样;2,速简方式。原理(若以平均数为中心,左右3各标准差的距离大概可以网络99.7的数据,即最小数到最大数之间有6个σ)我们可以计算该组数据的最大值和最小值的差,然后再除以6,就是对σ的速简估计。
抽样的多种组织形式:简单随机抽样(simple random sampling,srs)
等距抽样(systematic sampling)
分层随机抽样(stratified random sampling)
集群抽样(cluster sampling)
两段集群抽样(two-stage cluster sampling)
抽样误差和样本数的关系:95%的置信区间一般作为抽样设计的通常设置。因此2σ/根号n是我们决定样本数和误差大小的主要依据(第九届考试中此类计算题涉及了三-四题)。
样本容量的影响因素包括 置信区间的选择,样本环境的复杂程度,使用模型的复杂程度。
二、假设检验
大纲要求:P值得含义及计算,如何利用p值进行检验,Z检验统计量,t检验统计量,F检验统计量,卡方检验统计量的函数形式和检验步骤;
假设检验的基本概念,基本步骤和两类错误:
基本步骤:
1,建立原假设H0成立,备择假设H1;原假设H0:μ1=μ2(或者μ1>=μ2或μ1<=μ2);备泽假设:μ1<>μ2(或μ1<μ2,或μ1>μ2),一般假设H0为真,对其统计检验,H0与H1对立,两者择1;
2,确定小概率事件的届值。一般情况下将P<0.05或P<0.01作为小概率的界值;
3,获取样本;
4,选择检验方法
5,确定P值,
根据数据得出结论假设检验的两类错误:
1,H0为真,拒绝H0 为α型错误,当虚无假设(H0)正确时,而拒绝H0所犯的错误。这意味着研究者的结论并不正确,即观察到了实际上并不存在的处理效应。
可能产生原因:1、样本中极端数值。2、采用决策标准较宽松。
2,H0为假,接受H0,为β型错误。是指虚无假设错误时,反而接受虚无假设的情况,即没有观察到存在的处理效应。
可能产生的原因:1、实验设计不灵敏。2、样本数据变异性过大。3、处理效应本身比较小。
接受或拒绝假设并不等于100%正确,两类错误的概率想加并不一定等于1,样本量不变的情况下,α和β不能同时增大或减小。
犯Ⅰ类错误得危害较大,由于报告了本来不存在的现象,则因此现象而衍生出的后续研究、应用的危害将是不可估量的。相对而言,Ⅱ类错误的危害则相对较小,因为研究者如果对自己的假设很有信心,可能会重新设计实验,再次来过,直到得到自己满意的结果(但是如果对本就错误的观点坚持的话,可能会演变成Ⅰ类错误)。
统计量(z,t,F,卡方)的函数形式,利用P值进行检验的步骤:
一个总体,总体均值的假设检验,总体正态分布:方差已知:可以用样本均值的标准误差,临界比率Z=(X拔-μ0)/(σ/根号n)方差未知:小样本,小于30,适用于T检验
t=(X拔-μ0)/(S/根号n)
一个总体,总体均值的假设检验,总体非正态分布:方差未知:大样本,用非参数检验,n的样本量较大,服从近似正态分布,适用于Z检验
Z=(X拔-μ0)/(S/根号n)
用于单个总体的方差检验,卡方检验: χ2=(n-1)S方/σ方 χ2(n-1)
两个总体的方差检验,F检验:F=S1方/S2方~ F(n1-1,n2-1)
P值是一种概率,可以表示对原假设的支持程度。是用于确定是否应该拒绝原假设的一种方法,当P值小于显著性水平时,要拒绝原假设,否则就无法拒绝原假设
如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。
如果0.01<p值<0.05,说明结果更倾向于接受假定的参数取值。
如果p值>0.5,说明结果更倾向于接受假定的参数取值。
左侧检验
右侧检验
双侧检验
假设检验的基本思想: 业务流程的数据分析与假设检验的流程是 一致的。
t检验可分为单总体检验和双总体检验,以及配对样本检验
单总体t检验:检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。 单总体t检验统计量为:
双总体t检验是检验:两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是独立样本t检验(各实验处理组之间毫无相关存在,即为独立样本),该检验用于检验两组非相关样本被试所获得的数据的差异性;一是配对样本t检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。
(1)独立样本t检验统计量为:用于检验两样本是否来自相同均值的总体 适用条件,小小样本,n<30,且总体标准差σ未知的正态分布样本。
S12和 S22为两样本方差;n1 和n2 为两样本容量。
(2)配对样本检验 可视为单样本t检验的扩展,不过检验的对象由一群来自常态分配独立样本更改为二群配对样本之观测值之差。若二配对样本x1i与x2i之差为di=x1i−x2i独立,且来自常态分配,则di之母体期望值μ是否为μ0可利用以下统计量: