Wang2014 SUPER

Wang Q, Tian F, Pan Y, et al. A SUPER Powerful Method for Genome Wide Association Study (Y Li, Ed.). PLoS ONE, 2014, 9(9): e107684. DOI: 10.1371/journal.pone.0107684.

一种超强的全基因组关联研究方法

摘要

全基因组关联研究揭示了人类疾病和农业重要性状基因的鉴定。假阳性结果掩盖了这种潜力。混合线性模型（MLM）方法足够灵活，可以同时结合种群结构和神秘关系来减少误报。然而，其密集的计算负担在实践中是禁止的，特别是对于大样本。新开发的算法FaST-LMM解决了计算问题，但要求SNP的数量少于导致等级减少关系的个体数量。与使用所有SNP相比，这种限制可能导致更低的统计功效。我们开发了一种方法来提取一小部分SNP并在FaST-LMM中使用它们。该方法不仅保留了FaST-LMM的计算优势，而且即使与使用整组SNP相比也显着提高了统计功效。我们将方法命名为SUPER（在渐进式独占关系下解决MLM），并将其提供给GAPIT软件包的实现。

介绍

全基因组关联研究（GWAS）已成为鉴定人类疾病基因和农业重要性状的主要方法。然而，到目前为止鉴定的遗传变异仅解释了一小部分表型变异[1]。由于缺乏统计学效力，稀有基因和没有大的影响的基因仍然未被识别[2]。统计功效由许多因素决定，如基因效应，等位基因频率，样本大小，标记密度和I型错误的零分布[3]。I型错误（假阳性）膨胀导致比预期更多的错误发现[4]，[5]。

群体分层和神秘关系是假阳性膨胀的两个常见原因[6]，[7]。【GLM不行吗？】与一般线性模型（GLM）相比，混合线性模型（MLM）方法通过同时合并这两个因子有效地消除了假阳性[8]。群体分层通过群体结构[6]或主成分[9]作为固定效应。个体之间的神秘关系与方差分量相结合，共同定义来自个体的随机遗传效应的方差和协方差。

群体中的个体数量很大程度上决定了MLM方程的大小[10]。解决MLM的计算复杂性是个体数量的三次函数。解决具有大量个体的MLM是禁止的，尤其是迭代估计未知方差分量[11]。一些进步已部分解决了计算问题。高效混合模型关联（EMMA）算法通过将可能性作为其比率的函数导出，将遗传和残差方差分量的二维优化转化为一维优化[12]。

已经努力将计算函数从立方变为二次，特别是对于标记筛选，其主导了具有高标记密度的数据的整个计算。先前确定的群体参数（P3D）或高效混合模型关联（EMMAX），仅估计方差分量（或它们的比率）一次，然后将它们固定为测试遗传标记[13]，[14]。此外，开发了一种精确的方法 - 全基因组高效混合模型关联（GEMMA），用于估计每个测试标记的群体参数，具有相似的P3D或EMMAX计算效率[15]。

压缩MLM的方法[13]将个体聚类成组，并将这些组作为随机效应。因此，计算复杂度函数从个体数量的立方体减少到较小数量的组的立方。然而，立方性仍然存在。在实践中，观察到的最大压缩（即，每组的平均个体数量）仅为约二十倍[16]。因此，对于极大量的个体来说，解决传销仍然是令人望而却步的。

因子谱变换线性混合模型（FaST-LMM）将计算复杂度的三次函数划分为两部分的乘积：1）个体数量和2）个体之间关系等级的平方[17]。当所有遗传标记（通常远大于个体数量）用于定义个体之间的关系时，个体之间的亲缘关系具有完全排名（即，与个体数量相同）。计算复杂性仍然是个体数量的立方。建议使用一小部分随机选择的标记来定义等级降低的关系[17]。当小子集具有相对于个体数量恒定数量的单核苷酸多态性（SNP）时，计算复杂性变得与个体数量成线性关系。FaST-LMM的作者展示了一些使用一小部分随机选择的标记来定义亲缘关系的例子，这些亲缘关系具有与使用所有遗传标记的那些相似的结果[17]。此外，该研究表明，一小组相关遗传标记具有比随机选择的一小组遗传标记更好的统计功效。如果它们来自测试标记的相同区域（例如，在2Mb内），则以这样的方式使用一小组相关遗传标记以去除这些标记中的一些以定义个体关系[18]。所选标记集的大小和内容对于计算速度和统计功率而言变得至关重要。

在这项研究中，我们开发了一种方法，可以显着减少用于定义个体关系的遗传标记的数量，并显着提高统计效力。

首先，我们将整个基因组分成小区。每个箱由最重要的标记表示。
其次，我们只选择有影响力的箱。
第三，我们使用最大似然法来优化选择作为表型基础的伪数量性状核苷酸（QTN）的区域的大小和数量。
第四，在每个标记的最终测试中，通过将连锁不平衡（LD）中的标记排除到测试标记，使用少量标记来定义个体之间的关系，而不考虑局部距离。
我们将该算法称为逐步独占关系下的MLM结算（SUPER）。

材料和方法

超级方法

我们在标准MLM方法的框架内开发了SUPER方法，该方法将观察（ $Y$ ）分解为固定效应（ $β$ ），随机遗传效应（ $u$ ）和残差（ $e$ ）如下。
$y = X\beta +Zu + e$
（1）
其中 $u$ 是大小为 n（个体数）的向量，用于未知的随机多基因效应，其均值为零且协方差矩阵为 $G= 2K\sigma_a^2$ ，其中 $K$ 为具有元素 $K_{ij}$ （i,j = 1,2,...,n）的亲属（共同祖先）矩阵从遗传标记计算，并且是未知的加性遗传方差。X和Z分别是 $β$ 和 $u$ 的关联矩阵，随机残差效应 $e$ 通常以零均值和协方差分布 $R= I\sigma_e^2$ ，其中 $I$ 是单位矩阵，是未知的残差方差。求解方程（1）涉及确定观察值（ $y$ ）具有最大似然性的所有未知参数，定义如下：
$L(y|\beta,\sigma_a^2, \sigma_e^2)$
（2）

为了执行GWAS，标记效应（ $v$ ）被添加到等式（1）中，一次一个：
$y = Wv + X\beta +Zu + e$
（3）
其中 $W$ 是 $v$ 的关联矩阵。使用P3D [13]或EMMAX [14]求解方程（3）只涉及优化 $v$ 和 $β$ 以优化下面这个似然函数：
$L(y|v,\beta,\hat{\sigma}_a^2, \hat{\sigma}_e^2)$
（4）
其中， $\hat{\sigma}_e^2$ 是最大化方程（2）得到的估计。

亲属（K）是已知参数，其源自遗传标记。因此，不同组的遗传标记产生不同的亲缘关系。这是本研究中所有方法的唯一差异。我们使用了Van Raden等人的有效算法[19]。（在GAPIT [20]中实施）计算亲属关系矩阵。

第一种方法是仅使用QTN。
第二种方法是使用包括QTN的所有SNP。
第三种方法是使用除QTN之外的所有SNP。当SNP的数量很大时，第二种和第三种方法几乎不同。
第四种方法类似于使用QTN的第一种方法。不同之处在于，当测试SNP与QTN相同时，排除QTN用于导出亲属关系。血缘关系称为互补特质亲属关系。
第五种方法类似于第四种方法，只是QTN被屏蔽并且必须通过估计来识别。因此，该方法可用于真正的QTN未知的实践中。
我们开发了一种程序来寻找类似QTN的SNP，称为伪QTN。

我们的程序包括三个步骤。前两个步骤执行伪QTN的包含。最后一步执行GWAS，排除LD中具有测试SNP的伪QTN。

步骤1：通过针对特定性状的初步GWAS或基因组预测对SNP的p值或效应进行分类。
步骤2：对于染色体上的每个bin（片段），选择最有影响力的SNP（例如，具有最低P值）作为bin的代表。然后，选择小号最有影响力的箱打造的血缘关系。将箱的大小和所选箱的数量视为参数，以最大化特征的受限最大可能性。该小号选定SNP（每一个代表仓）随后被用作一个SNP池的基底以限定用于稍后关联测试个体的关系。更准确地说，我们优化了以下似然函数：
$L(y|\beta,\sigma_a^2, \sigma_e^2,s,b)$
（5）
其中 $s$ 和 $b$ 是箱的数量和大小。
步骤3：当测试等式（3）中的SNP时，我们将具有测试SNP的LD中的SNP排除在LD中，以得到互补的性状特异性亲缘关系。我们称这种方法为渐进式独占关系（SUPER）。
求解方程（3）仅涉及 $v$ 和 $β$ 的优化以优化下面这个似然：
$L(y|\beta,\sigma_a^2, \sigma_e^2,\hat{s},\hat{b})$
（6）

其中， $\sigma_a^2$$、\sigma_e^2$ 和 $\hat{b}$ 是最大化等式（5）得到的估计。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,802评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,109评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,683评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,458评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,452评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,505评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,901评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,550评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,763评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,556评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,629评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,330评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,898评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,897评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,140评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,807评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,339评论 2赞 342

Wang2014 SUPER

一种超强的全基因组关联研究方法

摘要

介绍

材料和方法

超级方法

推荐阅读更多精彩内容