一. GWAS与群体结构
(1)群体遗传结构:群体水平大尺度遗传差异,亚群水平等位基因频率差异,不同祖先来源,个体间亲缘关系,家系等不同的群体结构。
图1 群体结构类型
(2)群体结构对GWAS的影响:GWAS的研究对象包括自然群体、种质资源,半同胞家系,混合家系,MAGIC/NAM家系等。自然群体内性状变异和遗传变异丰富,群体内积累许多重组和突变信息,使用GWAS定位的分辨率大大提高;使用人工设计群体进行GWAS一方面降低群体内分化情况,另一方面避免稀有等位变异的丢失。但是,GWAS分析时也存在困难,每个亚群样本共享一种生活方式,导致许多目标性状直接与亚群或世系相关;亚群间本身的表型差异;群体内等位基因频率差异大的位点与表型关联,导致出现假阳性。所以,GWAS需要选择统计学模型(如GLM、MLM)校正群体结构,我们在选择材料时,保持群体丰富遗传变异的同时,也要尽量避免过于复杂的群体结构。
二. 群体结构分析
(1)主成分分析
通过正交交换将一组可能存在相关性的变量转换为一组线性不相关的变量,PCA分析展示比较能区分群体的2-3个主成分。
(2)系统进化树
表示生物的进化历程和亲缘关系,基于不同算法可以构建NJ树(MEGA)、ML树(RAxML)、贝叶斯树(ExaBayes)等。
(3)structure
反映遗传变异在物种或群体的分布,推断群体数目,判断某个体属于哪个群体,基于不同算法的分析软件有STRUCTURE、ADMIXTURE、fastSTRUCTURE、TeraStructue等。
(4)遗传关系矩阵
包括血缘,共同祖先及其他共同特征的关系,可以根据系谱关系、标记基因型(AA、Aa、aa)、标记欧氏距离(ED值)等方法推断,MLM可以作为协方差控制假阳性。
图2 群体结构分析
三. 经典文献——GWAS解析二倍体棉关键农艺性状的遗传基础
(1)实验材料:
重测序230份亚洲棉材料(G.arboreum)和13份草棉材料(G.herbaceum),收集来自华南(SC)、长江流域(YZR)和黄河流域(YER),代表中国二倍体棉的表型和地理多样性。
(2)测序方案:
Illumina HiSeq 2500,PE125,每份材料~6.0×,过滤得到72419 SNPs。
(3)部分结论:
雷德蒙氏棉(G. raimondii)作为外类群构建NJ树发现亚洲棉和草棉分成两个独立枝,亚洲棉划分出SC、YZR、YER等地理分组,PCA分析进一步验证,说明亚洲棉和草棉从不同野生祖先独立驯化。SC分组核苷酸多态性更高(π=0.211×10−3),说明亚洲棉最初在SC栽培然后传播到YZR和YER,亚洲棉(r2=0.40)和草棉(r2=0.39)LD值相似于大豆和水稻地方品种,明显高于玉米栽培品种。Model-based 群体结构分析发现YER显著区别于SC、YER,说明人工选择在作物驯化中起重要作用。11个重要性状GWAS发现98个显著关联信号,25个在基因区域,农艺性状相关的主效GWAS信号在形态上表现地理分化,如花期、棉铃重和抗病性等,所以成熟度、产量和抗病性状一直处于强烈的人工/地理选择。
图3 二倍体棉基因组与地理差异