1、基本统计学概念
假设检验
• 零假设(H0):即原假设
• 备择假设(H1):与零假设对立的假设
• 计算零假设(H0)成立的概率
• 如果H0成立的概率很低(e.g. 5% or 1%),则拒绝原假设,接受备择假设
• 否则接受原假设
两类错误与统计功效
• I类错误(Type I error): 拒绝真实的H0, 即假阳性, 概率α为显著性水平;
• II类错误(Type II error): 接受错误的H0, 即假阴性, 概率为β;
• 功效(Power): 拒绝错误H0的概率, (1-β)
2、Case/Control关联分析
病例对照分析
• Case/control,一般可以用Pearson’s X2检验来分析
• 等位基因关联,检测性状与等位基因的关联性
• 假设一个标记有两种等位基因,分别为1和2,令Nca为病例,Nco为对照,列联表如下
• H0:列变量与行变量无关,即该位点等位基因的分布与病例-对照无关;
• H1:列变量与行变量有关,即该位点等位基因的分布与病例-对照有关。
卡方检验
当H0成立时,总体趋向卡方分布,且自由度为(r − 1)(c − 1) = (2 − 1)(2 − 1) = 1
Note:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。卡方检验针对分类变量。
卡方检验计算示例
逻辑回归(可以加入群体结构协变量)
• 令Yi为第i个个体的质量性状的表型值Yi = {0,1}; 0为其中一种表现型(controls),1为另一种表现型(cases);
• Yi = 0; controls; Yi = 1; cases.
• 令Xi为第i个个体某个位点的基因型,Xi = {0,1,2}; 0为其中一种纯合基因型(TT),1
为杂和基因型(如GT),2为另一种纯合基因型(如GG);
• Xi = 0; TT; Xi = 1; GT; Xi = 2; GG.
• 逻辑回归:
• pi = E(Yi|Xi);在Xi条件下Yi的期望;
• logit(pi) = loge[pi /(1- pi) ]
• logit(pi) ~ β0 + β1Xi
• 检验β1与0是否存在显著的差异,即为关联p值
• 增加协变量(性别,群体结构矩阵,环境因素等):
• pi = E(Yi | Xi,Ci, Di,…)
• logit(pi)~β0 + β1Xi + β2Ci + β3Di +…
质量性状-卡方检验-逻辑回归结果比较
3、复杂性状使用简单统计方法是否可行?
数量性状与QTL
• 数量性状(quantitative characters):是指在一个群体内的各个体间表现
为连续变异的性状,遗传上一般由多个微效基因控制
• 数量性状基因座(quantitative trait locus,QTL):它指的是控制数量性
状的基因在基因组中的位置
• QTL定位:发掘影响数量性状变异的遗传位置的过程
单位点简单回归模型
结论:
1)简单的统计方法可以用于GWAS;
2)但是方法本身考虑的影响因素比较少,因而假阳性比较高;
3)在标记量比较少,针对特定区间的或个别位点进行分析时,可以使
用t测验、相关性分析等简单的方法进行。
4、复杂统计模型简介
主要为 GLM 和 MLM (不做详细介绍)