Wang Q, Tian F, Pan Y, et al. A SUPER Powerful Method for Genome Wide Association Study (Y Li, Ed.). PLoS ONE, 2014, 9(9): e107684. DOI: 10.1371/journal.pone.0107684.
一种超强的全基因组关联研究方法
摘要
全基因组关联研究揭示了人类疾病和农业重要性状基因的鉴定。假阳性结果掩盖了这种潜力。混合线性模型(MLM)方法足够灵活,可以同时结合种群结构和神秘关系来减少误报。然而,其密集的计算负担在实践中是禁止的,特别是对于大样本。新开发的算法FaST-LMM解决了计算问题,但要求SNP的数量少于导致等级减少关系的个体数量。与使用所有SNP相比,这种限制可能导致更低的统计功效。我们开发了一种方法来提取一小部分SNP并在FaST-LMM中使用它们。该方法不仅保留了FaST-LMM的计算优势,而且即使与使用整组SNP相比也显着提高了统计功效。我们将方法命名为SUPER(在渐进式独占关系下解决MLM),并将其提供给GAPIT软件包的实现。
介绍
全基因组关联研究(GWAS)已成为鉴定人类疾病基因和农业重要性状的主要方法。然而,到目前为止鉴定的遗传变异仅解释了一小部分表型变异[1]。由于缺乏统计学效力,稀有基因和没有大的影响的基因仍然未被识别[2]。统计功效由许多因素决定,如基因效应,等位基因频率,样本大小,标记密度和I型错误的零分布[3]。I型错误(假阳性)膨胀导致比预期更多的错误发现[4],[5]。
群体分层和神秘关系是假阳性膨胀的两个常见原因[6],[7]。【GLM不行吗?】与一般线性模型(GLM)相比,混合线性模型(MLM)方法通过同时合并这两个因子有效地消除了假阳性[8]。群体分层通过群体结构[6]或主成分[9]作为固定效应。个体之间的神秘关系与方差分量相结合,共同定义来自个体的随机遗传效应的方差和协方差。
群体中的个体数量很大程度上决定了MLM方程的大小[10]。解决MLM的计算复杂性是个体数量的三次函数。解决具有大量个体的MLM是禁止的,尤其是迭代估计未知方差分量[11]。一些进步已部分解决了计算问题。高效混合模型关联(EMMA)算法通过将可能性作为其比率的函数导出,将遗传和残差方差分量的二维优化转化为一维优化[12]。
已经努力将计算函数从立方变为二次,特别是对于标记筛选,其主导了具有高标记密度的数据的整个计算。先前确定的群体参数(P3D)或高效混合模型关联(EMMAX),仅估计方差分量(或它们的比率)一次,然后将它们固定为测试遗传标记[13],[14]。此外,开发了一种精确的方法 - 全基因组高效混合模型关联(GEMMA),用于估计每个测试标记的群体参数,具有相似的P3D或EMMAX计算效率[15]。
压缩MLM的方法[13]将个体聚类成组,并将这些组作为随机效应。因此,计算复杂度函数从个体数量的立方体减少到较小数量的组的立方。然而,立方性仍然存在。在实践中,观察到的最大压缩(即,每组的平均个体数量)仅为约二十倍[16]。因此,对于极大量的个体来说,解决传销仍然是令人望而却步的。
因子谱变换线性混合模型(FaST-LMM)将计算复杂度的三次函数划分为两部分的乘积:1)个体数量和2)个体之间关系等级的平方[17]。当所有遗传标记(通常远大于个体数量)用于定义个体之间的关系时,个体之间的亲缘关系具有完全排名(即,与个体数量相同)。计算复杂性仍然是个体数量的立方。建议使用一小部分随机选择的标记来定义等级降低的关系[17]。当小子集具有相对于个体数量恒定数量的单核苷酸多态性(SNP)时,计算复杂性变得与个体数量成线性关系。FaST-LMM的作者展示了一些使用一小部分随机选择的标记来定义亲缘关系的例子,这些亲缘关系具有与使用所有遗传标记的那些相似的结果[17]。此外,该研究表明,一小组相关遗传标记具有比随机选择的一小组遗传标记更好的统计功效。如果它们来自测试标记的相同区域(例如,在2Mb内),则以这样的方式使用一小组相关遗传标记以去除这些标记中的一些以定义个体关系[18]。所选标记集的大小和内容对于计算速度和统计功率而言变得至关重要。
在这项研究中,我们开发了一种方法,可以显着减少用于定义个体关系的遗传标记的数量,并显着提高统计效力。
- 首先,我们将整个基因组分成小区。每个箱由最重要的标记表示。
- 其次,我们只选择有影响力的箱。
- 第三,我们使用最大似然法来优化选择作为表型基础的伪数量性状核苷酸(QTN)的区域的大小和数量。
- 第四,在每个标记的最终测试中,通过将连锁不平衡(LD)中的标记排除到测试标记,使用少量标记来定义个体之间的关系,而不考虑局部距离。
我们将该算法称为逐步独占关系下的MLM结算(SUPER)。
材料和方法
超级方法
我们在标准MLM方法的框架内开发了SUPER方法,该方法将观察()分解为固定效应(),随机遗传效应()和残差()如下。
(1)
其中 是大小为 n(个体数)的向量,用于未知的随机多基因效应,其均值为零且协方差矩阵为,其中 为具有元素 (i,j = 1,2,...,n)的亲属(共同祖先)矩阵从遗传标记计算,并且是未知的加性遗传方差。X和Z分别是 和的关联矩阵,随机残差效应通常以零均值和协方差分布,其中 是单位矩阵,是未知的残差方差。求解方程(1)涉及确定观察值()具有最大似然性的所有未知参数,定义如下:
(2)
为了执行GWAS,标记效应()被添加到等式(1)中,一次一个:
(3)
其中是的关联矩阵。使用P3D [13]或EMMAX [14]求解方程(3)只涉及优化和 以优化下面这个似然函数:
(4)
其中,是最大化方程(2)得到的估计。
亲属(K)是已知参数,其源自遗传标记。因此,不同组的遗传标记产生不同的亲缘关系。这是本研究中所有方法的唯一差异。我们使用了Van Raden等人的有效算法[19]。(在GAPIT [20]中实施)计算亲属关系矩阵。
- 第一种方法是仅使用QTN。
- 第二种方法是使用包括QTN的所有SNP。
- 第三种方法是使用除QTN之外的所有SNP。当SNP的数量很大时,第二种和第三种方法几乎不同。
- 第四种方法类似于使用QTN的第一种方法。不同之处在于,当测试SNP与QTN相同时,排除QTN用于导出亲属关系。血缘关系称为互补特质亲属关系。
- 第五种方法类似于第四种方法,只是QTN被屏蔽并且必须通过估计来识别。因此,该方法可用于真正的QTN未知的实践中。
我们开发了一种程序来寻找类似QTN的SNP,称为伪QTN。
我们的程序包括三个步骤。前两个步骤执行伪QTN的包含。最后一步执行GWAS,排除LD中具有测试SNP的伪QTN。
步骤1:通过针对特定性状的初步GWAS或基因组预测对SNP的p值或效应进行分类。
步骤2:对于染色体上的每个bin(片段),选择最有影响力的SNP(例如,具有最低P值)作为bin的代表。然后,选择小号最有影响力的箱打造的血缘关系。将箱的大小和所选箱的数量视为参数,以最大化特征的受限最大可能性。该小号选定SNP(每一个代表仓)随后被用作一个SNP池的基底以限定用于稍后关联测试个体的关系。更准确地说,我们优化了以下似然函数:
(5)
其中和是箱的数量和大小。步骤3:当测试等式(3)中的SNP时,我们将具有测试SNP的LD中的SNP排除在LD中,以得到互补的性状特异性亲缘关系。我们称这种方法为渐进式独占关系(SUPER)。
求解方程(3)仅涉及和的优化以优化下面这个似然:
(6)
其中,和是最大化等式(5)得到的估计。