GWAS基本概念

文章来自：Concepts and relevance of genome-wide association studies

我觉得读完这篇文章需要认识SNP, Haplotype, alleles, LD这些基本概念。部分内容由于理解不到位，所以没翻译。尽量看原文理解吧，有错的话请见谅！

摘要：全基因组关联分析(GWAS)技术在过去10年中一直是鉴定疾病和其他性状相关基因的主要方法。已经有超过2000份人类GWAS报告。这项技术还在不断改进，研究人员最近可以研究各种动物、植物和模式生物。在这里，我们将概述GWAS的概念:基础生物学，方法的起源，以及GWAS实验的主要组成部分。

Keywords: genome-wide association study, genetics, statistics, gene discovery

Introduction

全基因组关联研究(GWAS)是大约十年前出现的一种强大的科学工具，用于鉴别与生物体性状相关的基因。GWAS已被发展成为鉴定人类疾病易感基因的主要方法。最近，GWAS技术在非人类应用领域，特别是在农业基因组学这个新兴领域中得到了快速发展。高通量基因分型阵列现在可用于许多动物和作物，使科学家和植物和动物育种人员能够通过遗传学改进育种程序和粮食生产。随着越来越多的研究人员进入这一领域，我们想分享一些我们的经验，并给出GWAS背后的关键概念的概述。
The biology of GWAS

最初开发GWAS是为了研究人类基因组。人类基因组是由超过30亿个DNA碱基组成的序列，可以用AGCT四个字母表示。在整个人类中，许多基因组序列是相同的或高度保守的，但每个人的基因组都是独一无二的。一个特定的人的基因组序列可能与标准的人类参考基因组有超过300万个不同的位置。每一代都有新的突变被引入到基因组中，现在在所有人群中广泛观察到许多旧的突变。这些常见的突变（common mutations）通常被称为变异或多态性（variants or polymorphisms）。

最常见的变异类型是单核苷酸多态性(SNP)，其描述单个DNA碱基的变化。同一基因在同一位点上含有不同形式的snp，通常称为等位基因（The different forms of the same gene containing variable SNPs within the same site(s) are typically called alleles）。GWAS方法主要关心在每个研究对象中确定与各种snp相关的等位基因，并进行统计比较以识别与特定性状相关的snp或基因（就是用SNP和群体的表型数据进行统计学关联）。如果某种等位基因在患有疾病的人中比其他健康人更常见，这就被解释为这种等位基因或附近的另一种变异可能导致疾病或至少增加疾病风险的证据（一定要注意直接关联的SNP并不一定是致病SNP，与它邻近的可能也是）。

大多数snp是由某个历史突变事件引起的。由于这个祖先，每一个新的等位基因最初都与其所在的特定染色体的其他等位基因相关联。在单个染色体或染色体部分区段上观察到的特定的一组等位基因称为单倍型（说白了，单倍型是某段染色体区域的一串SNP）。在减数分裂过程中，新的单倍体是通过额外的突变或染色体重组(也称为交叉)形成的。单倍型往往是保守的，特别是在最近有共同祖先的个体中(见fig 1)。在GWAS中，单倍型保守性是一个非常重要的因素。导致某一特定性状的遗传变异可能无法在GWAS中直接检测，但通过同一单倍型内发生的snp的关联，其信号可能是明显的（这是GWAS的核心，上面也有提到）fig2。（The nonrandom co‑occurrence of alleles within a chromosome or haplotype is called linkage disequilibrium, or LD. The degree of LD in a population is shaped by selection, recombination rate, mutation rate, consanguinity and other factors）染色体或单倍型内等位基因的非随机共现称为连锁不平衡，或LD。LD在群体中的程度是由选择、重组率、突变率、血缘和其他因素决定的。

image.png

Fig1 单倍型和重组。这个图显示了人类19号染色体的一个小区域。中间的图是基因和染色体的物理地图坐标。顶部的图是重组率数据，来自HapMap data.峰值代表减数分裂重组的“热点”位置。下方的三角图展示了连锁不平衡区域，强LD则显示为红色。LD测量是基于649个欧洲人。值得注意的是，高LD区域仅限于最小历史重组区，不跨越重组热点进行延伸。（重组的hotspts区和高LD区是相反的）

image.png

Fig2 基因型和单倍型。这张图描绘了三个受试者基因组中的四个SNP位点。每个受试者都有两种单倍型，对应于人类细胞中的每条染色体的两份拷贝。假设SNP-2的C等位基因导致了某种性状，但该Snp没有被基因分型（也就是这个SNP没有被检测出）。SNP-3位点的G等位基因总是与致病等位基因发生在同一单倍型上。如果进行基因分型，则G可作为GWAS试验中因果等位基因的代理（通过G就可以找到C）。进一步的检测表明，因果等位基因总是发生在A--C--G--A单倍型，也可以使用单倍型进行关联分析。

The origins of GWAS

使得GWAS成为可能的是21世纪早期的科学进展。人类基因组计划的完成大大提高了我们对人类基因组的认识，为基因变异的研究提供了更好的背景。国际人类基因组单倍型图计划于2005年完成了第一阶段，开展了一项史无前例的SNP发现计划，并首次提供了详细的人类单体型和LD图谱。这些科学成就使人们有可能识别出相对少量的snp，这些snp能够代表人类基因组中大多数常见的变异。GWAS的时代诞生于生物技术公司，包括Affymetrix、Illumina和Perlegen推出了竞争平台，同时对数十万个snp进行基因分型。

2005年，国家人类基因组研究所和欧洲生物信息学研究所进行了对年龄相关性黄斑变性(AMD)的分析。作为第一个GWAS研究，这项研究分析了146名研究对象的约10万个snp，确定cfh基因是AMD的主要风险因子。从此，GWAS每年都会发布数百份报告。近年来发表的人类GWAS研究的数量已经趋于稳定，但研究群体的平均规模继续增长(表1)。目前最大的GWAS研究可能包括超过10万名受试者。（人类GWAS数量是极多的，植物在1000份以上就是超大规模了。动物的样本有时候少的只有几十个）。

image.png

The practice of GWAS

GWAS研究可以研究质量或者数量性状位点。在GWAS研究设计中必须考虑几个问题，包括基因分型平台的选择、样本量和样本收集、统计分析计划、统计能力、多重检验的校正和群体结构。

GWAS的基因型数据通常是微阵列检测，该技术可以检测群体内的多态性。基因微阵列涉及三个基本原则：

1.DNA微阵列固定特意等位基因的寡核苷酸探针，这些探针是人工合成DNA的短片段，与目标DNA序列互补；

2.目标物的核酸片段序列，用荧光染料标记；

3.检测和记录杂交信号的系统。

有许多不同的微阵列或“芯片”可用于人类和非人类。一些芯片被设计用来测试尽可能多的snp——目前大约有500万个。有些芯片是专门设计来测试基因编码区域的snp的，这些编码区域约占基因组的2%。其他芯片可能测试相对较少的snp，这些snp是经过精心挑选的，可以有效地代表全世界的单倍型多样性。一些芯片是为特定的种族设计的，或者可能富含与特定疾病相关的基因的snp。在选择基因分型芯片时，重要的是要考虑当前项目的目标，与过去或计划的未来研究数据的兼容性，以及可用的预算。

GWAS研究的下一个目标是收集和记录所需的表型，可以是定量的(整数或实值)或二分的(病例对照)。数量性状可以提供更多的统计力来显示遗传效应，但病例对照研究设计也可以有效地识别与表型相关的多个基因。我们可以在文献中看到例子。

一旦收集到样本并进行基因分型，就可以开始进行全基因组关联的统计分析。这一过程首先进行彻底的质量控制分析，以确认基因型数据的准确性。对每个SNP进行统计假设检验，0假设与表型无关。根据测试的是哪种类型的特质，有许多关联测试可用。数量性状一般采用线性回归方法进行分析，假设性状是正态分布的，各组内方差相同，各组之间是独立的。流行的分析包括方差分析和GLM。二元性状通常使用logistic回归或诸如x2或Fisher精确检验等检验进行分析；logistic回归之所以流行，是因为它允许对其他协变量进行调整。

image.png

Figure 3 曼哈顿图.GWAS结果通常被这样展示。纵轴是--log10 P‑value。横轴是染色体编号顺序排开。每个点是一个SNP。由于其相似于曼哈顿市的地平线，被称为曼哈顿图。本图中，最显著的SNP是位于6号染色体。-- log10 P‑value of 6.68。

在GWAS中，统计能力和多重检验校是很重要的问题。在测试大量snp时，假阳性相关性是一个很大的风险，因此必须对相关性的统计证据保持较高的标准。人类GWAS研究中典型的显著性阈值为，P值小于5e - 8，相当于100万独立试验的标准Bonferonni校正。具有较大遗传多样性的种群，例如非洲群体，可能需要更严格的标准来确定测试结果是否具有统计意义。为了达到这样的显著性水平，可能需要非常大的样本量，特别是对于罕见病等位基因和效应值较小的等位基因(Figure 4)。GWAS的统计能力受到许多因素的影响，其中一些因素超出了研究者的控制范围。这些因素包括:表型遗传结构的复杂性，疾病等位基因的频率和效应大小，表型测量的准确性和表型的同质性，以及因果变异和snp之间的LD关系。

标准GWAS检验统计假设分析中的所有样本都是不相关的，并且是从一个统一的随机交配群体中选择的。任何偏离这一假设的行为都可能导致意想不到的结果，尤其是在大型研究群体中(在特定时间段内遭遇特定事件的受试者群体)。例如，如果某一种族的个体在一个实验的对照组中被高估了，由于该种族独特的遗传背景，整个基因组的检测结果的显著性可能会不断膨胀。主成分分析(PCA)可用于基于基因组相似性对研究对象进行分层，常用于评估GWAS中的群体分层(Figure 5).通常，为了解释群体结构会对GWAS的检测方法进行调整。另一种基于pca的校正方法是使用混合线性模型(MLM)回归来解释所有研究对象之间成对等位基因的共享。MLM方法，如EMMAX和 GEMMA有效地解释了人类和农作物中的群体结构。

image.png

Beyond GWAS

GWAS有时被称为“假设生成”过程，因为它通常是理解性状遗传结构的第一步。一个成功的GWAS将导致一个或多个snp被发现与感兴趣的性状相关。然后，研究人员可以评估每个相关SNP的功能结果，检查与该SNP相关的LD中的其他变异，研究SNP所在基因的功能，并研究该基因参与的生物学途径。事实上，要完全理解GWAS的结果，可能需要大量的实验。随着性状生物学的阐明，开发疾病风险检测方法或改进疾病治疗和预防方案是可能的。

GWAS的第一个十年提供了许多成功的案例，但是关于如何改进GWAS仍在争论。现在已经提出了许多方法来增加统计能力，降低假阴性率，并将生物学背景纳入GWAS结果。在未来的几年里中我们会看到技术和分析方法的不断创新，使GWAS成为一种更有效的方法来研究疾病和其他性状。
References

1.Gurgul, A., Semik, S., Pawlina, K., et al. (2014) The application of genome-wide SNP genotyping
methods in studies on livestock genomes. J. Appl. Genet., 55, 197 – 208.

2.The 1000 Genomes Project Consortium. (2012) An integrated map of genetic variation from 1092
human genomes. Nature, 491, 56 – 65.
1. Francioli, L.C., Polak, P.P., Koren, A., et al. Genome of the Netherlands Consortium, van Duijn,
  C.M., Swertz, M., Wijmenga, C., et al. (2015) Genome-wide patterns and properties of de novo
  mutations in humans. Nat. Genet., 47, 822 – 826.
2. International Human Genome Sequencing Consortium. (2004) Finishing the euchromatic
  sequence of the human genome. Nature, 431, 931 – 945.
3. The International HapMap Consortium. (2005) A haplotype map of the human genome. Nature,
  437, 1299 – 1320.
4. Welter, D., MacArthur, J., Morales, J., et al. (2014) The NHGRI GWAS Catalog, a curated
  resource of SNP-trait associations. Nucleic Acids Res., 42, D1001-6.
5. Klein, R.J., Zeiss, C., Chew, E.Y., et al. (2005) Complement factor H polymorphism in agerelated
  macular degeneration. Science, 308, 385 – 389.
6. Teslovich, T., Musunuru, K., Smith, A., et al. (2010) Biological, clinical and population relevance
  of 95 loci for blood lipids. Nature, 466, 707 – 13.
7. Habek, M., Brinar, V. and Borovecki, F. (2010) Genes associated with multiple sclerosis: 15 and
  counting. Expert. Rev. Mol. Diagn., 10, 857 – 861.
8. Bush, W. and Moore, J. (2012) Chapter 11: Genome-Wide association studies. PLOS Comput.
  Biol., 8 (12), e1002822.
9. Laurie, C.C., Doheny, K.F., Mirel, D.B., et al.; GENEVA Investigators. (2010) Quality control
  and quality assurance in genotypic data for genome-wise association studies. Genet. Epidemiol.,
  34, 591 – 602.
10. Clarke, G.M., Anderson, C.A., Petterson, F.H., et al. (2011) Basic statistical analysis in genetic
  case-control studies. Nat. Protoc., 6, 121 – 133.
11. Eu-ahsunthonwattana, J., Miller, E.N. and Fakiola, M., Wellcome Trust Case Control Consortium
  2, Jeronimo, S.M.B., Blackwell, J.M., Cordell, H.J. (2014) Comparison of methods to account
  for relatedness in genome-wide association studies with family-based data. PLOS Genet., 10,
  e1004445.
12. Pe’er, I., Yelensky, R., Altshuler, D. and Daly, M.J. (2008) Estimation of the multiple testing
  burden for genomewide association studies of nearly all common variants. Genet. Epidemiol., 32,
  381 – 385.
13. Sham, P.C. and Purcell, S.M. (2014) Statistical power and significance testing in large-scale
  genetic studies. Nat. Rev. Genet., 15, 335 – 346.
14. Vilhjálmsson, B.J. and Nordborg, M. (2013) The nature of confounding in genome-wide
  association studies. Nat. Rev. Genet., 14, 1 – 2.
15. Kang, H.M., Sul, J.H., Service, S.K., et al. (2010) Variance component model to account for
  sample structure in genome-wide association studies. Nat. Genet., 42, 348 – 354.
16. Zhou, X. and Stephens, M. (2012) Genome-wide efficient mixed-model analysis for association
  studies. Nat. Genet., 44, 821 – 824.
17. Stranger, B.E., Stahl, E.A. and Raj, T. (2011) Progress and promise of genome-wide association
  studies for human complex trait genetics. Genetics, 187, 367 – 383.
18. Manolio, T., Collins, F.S., Cox, N.J., et al. (2009) Finding the missing heritability of complex
  diseases. Nature, 461, 747 – 753.
19. Marjoram, P., Zubair, A. and Nuzhdin, S.V. (2014) Post-GWAS: where next? More Samples,
  more SNPs or more biology? Heredity, 112, 79 – 88.
20. Lange, C., DeMeo, D., Silverman, E.K., et al. (2004) PBAT: Tools for family-based association
  studies. Am. J. Hum. Genet., 74, 367 – 369.
21. Golden Helix Inc., Bozeman, Montana, USA.

最后编辑于：2020.10.21 10:34:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342

GWAS基本概念

推荐阅读更多精彩内容