一、什么是泛基因组?
2005年,Tettelin等人提出了微生物泛基因组概念(pangenome,pan源自希腊语‘παν’,全部的意思),泛基因组即。2009 年,Li等人首次采用新全基因组组装方法对多个人类个体基因组进行拼接,发现了个体独有的DNA序列和功能基因,并首次提出了“人类泛基因组”的概念,即人类群体基因序列的总和。2009 年泛基因组测序首次应用于人类基因组学研究;2013 年泛基因组测序应用于动植物研究领域。
结构变异中的存在/缺失变化(PAVs: Present/absent variations)是泛基因组的重点研究对象。
泛基因组进而可以分为,(core genes)和 (variable genes)。
核心基因:指的是,在所有动植物个体或者菌株中都同时存在的基因。
可变基因:是指,在一个或者一个以上的动植物个体或者菌株中存在的基因,它们不是固定的,是多变的。如果某个基因,仅存在某一个动植物个体或者菌株中,该基因还可以细分为品系或者菌株特有基因。
功能上的差异:
核心基因:一般控制着生命体基本新陈代谢的功能,因为它们广泛存在所有个体中,是不可缺少的。
可变基因:往往只存在于一部分个体中,可能就是导致个体产生特异性的性状(抗病性,抗寒性等重要农艺性状)的原因。
二、为什么要开展泛基因组研究?
在漫长的进化过程中,由于地域因素,环境因素等的影响,每个个体都形成了极其特别的遗传性状,单一个体的参考基因组已经不能涵盖这个物种的所有遗传信息,换句话来说,就是如果只使用单一的参考基因组进行遗传驯化变异的研究,你可能会丢失掉很多有意义的基因内容,因为很多独特的序列都不在参考基因组上。
另外,由于基因测序的价格变得更加廉价,为近年来火爆的泛基因组的研究提供了可能性。
三、技术路线
目前比较流行的研究方法有三种:
1. 不基于参考基因组的重头组装
这是构建泛基因组或者参考基因组最经典的方法,分别对多个个体分别进行从头组装并且注释,然后将所得的每个个体的组装好的序列与参考序列基因组进行互相比对,找出比对不上的区域或者基因,这些个体独特的基因就是可变基因。
优点:不基于参考基因组,可以避免基于基因组方法中由于比对所产生的误差。另外因为是对每个个体进行重头组装,所以该方法可以进一步用于个体之间CNV的研究。
缺点:因为需要对每一个个体进行de novo assembly,然后还需要全基因组比对,所以该方法需要比较大的计算资源,需要比较高的测序深度(50X>)或者Mate-pair序列进而增加了预算,以确保重头组装的准确性。这方法需要对每个个体进行组装并且注释,对于含有上百个个体的泛基因组研究不太适合对于植物基因组的从头组装,这种方法对于小麦这种大型复杂的植物也不太适合。
2. 基于参考基因组的迭代组装
相当于一种迭代的方式,分别将每一个个体的reads先比对到参考基因组中,然后找出没有比对上的部分进行组装,得到新的基因序列进而扩展原有的参考序列。一步一步这样迭代,直到所有的个体都处理完,最后建立起泛基因组,再进行注释。另外这种方法需要的测序深度较低,因为这种迭代的方法还可以将遗传类型较接近的个体pool在一起进行迭代组装,进而增加组装的深度。
优点:因为只是组装没有比对上的部分,相对需要更少电脑资源,比较适合构建群体个体数目比较多的,基因组相对较大的植物基因组。
缺点:这种方法可能会产生更多的小片段,并且无法探究每个个体的CNV。
3. 基于参考基因组的重头组装
这种方法又被称为"map to pan"方法,这种方法是先进行de novo组装,然后将组装好的每个个体的基因序列比对到参考基因组中,找出没有比对上的序列,进而将所有没有比对上的序列找出并构建出泛基因组。这种方法也比较适合大规模的群体,但是如果你所研究的物种基因组很大的话,该方法也需要耗费大量的计算机资源。
四、应用
泛基因组测序是运用高通量测序及生物信息分析手段,针对不同亚种/个体材料进行测序及泛基因组组装,构建泛基因组图谱,丰富该物种的遗传信息。泛基因组测序不仅可以获得多个基因组,完善该物种的基因集,还可以获得种群甚至个体特有的DNA序列和功能基因信息,为系统进化分析及功能生物学研究奠定基础。
泛基因组也可以看作是对重测序数据的一种挖掘,挖掘发现每一个个体中独特的基因,特别是如果你构建的泛基因组中含有野生种,这能够对野生种的种质资源进行进一步挖掘和分析。
选择不同亚种材料进行泛基因组测序,可以研究物种的起源及演化等重要生物学问题,特别近年来发现PAVs也能看作为其中一种marker,基于PAVs也能对物种进行遗传进化的关联分析;选择野生种和栽培种等不同特性的种质资源进行泛基因组测序,可以发掘重要性状相关的基因资源,为科学育种提供指导;选择不同生态地理类型的种质资源进行泛基因组测序,可以开展物种的适应性进化,外来物种入侵性等热门科学问题的研究,为分子生态学等学科提供新的研究手段。
- 泛基因组还可以应用到寻找snps。
(1)对比单一的reference基因,可以有效提高可发现的snps数量
(2)用泛基因组去calling snps 意味着你可以节省很多电脑资源和分析时间。(正常snap calling需要比对到不同的个体上,但如果通过泛基因组去calling snps,就可以一步到位,因为这个pangenome 相当于所有个体的集合。另外,这也意味着,你得出的snps 组不需要整合(传统的snp calling需要整合,因为需要比对到不同个体上)
(3)还有一个好处就是,因为pangenome 包括了一步presence/absence variations 的分析,我们可以区别出这种snp是属于核心基因的,还是属于可变基因的。然后,再结合你表现型的数据,这对利用snp提高农作物产量是很有意义的。
五、局限性
1. 技术的局限性
目前,大多数的植物泛基因组分析中使用的都是基于短读长的二代测序数据。但是,短读长序列的一个缺点是对重复序列区域的组装并不理想。而现有的植物泛基因组分析结果表明,非参考基因组序列很大一部分是由重复序列组成。所以,目前的泛基因组序列大都是一些长度较短的,高度碎片化的序列构成。一方面,这些重复序列的组装结果并不准确,另外一方面,组装出来的序列中的基因都是片段化的。非完整的基因序列为下游的基因有无变异分析带来偏差,无法得到正确的基因有无变异图谱。
相比之下,基于单分子实时的第三代测序技术能够产生较长的读长,能够跨过某些重复序列,从而在一定程度上解决泛基因组分析中的重复序列问题,从而产生更加精准的基因有无变异图谱。但是,目前来讲,三代测序技术测序错误率较高,通量较低,价格较贵,还无法应用于大规模的群体遗传学研究中。随着技术的不断发展,一些技术壁垒被突破,如目前的CCS长读长序列的测序准确度已经超过99.8%(Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome,2019,NBT),这为准确获取个体基因组的序列提供了技术的支持。相信随着三代测序技术的发展和普及,我们可以构建更加完整的植物泛基因组序列。
2. 应用的局限性
泛基因组分析包括两个主要的内容,一是构建泛基因组序列,二是基于泛基因组的基因有无变异分析,建立泛基因组序列的基因数据库,及后续的应用研究。目前,大多数的植物泛基因组研究的重点放在第一部分。
在第二部分中,目前大多泛基因组的应用就是构建一个泛基因的数据库。数据库里面主要是包含了新发现的基因的基本信息,还有这些基因与RNA-seq比对的信息,在不同群体中基因出现的频率等相关信息。泛基因组中,新发现(新组装出来参考序列没有)的基因可以进一步用于功能分析,下游的湿实验通路研究,基因选择育种等一些的应用中。
但实际上建立数据库只是泛基因最基本的应用,对于实际的育种帮助还是处于很基础的阶段。 为什么这样说呢?在上次番茄泛基因组发表之后,各路植物基因学术界的大牛都在推特上议论一 番。其中有大牛一针见血的提出了目前植物泛基因研究最大的局限。他说道“他所认同的泛基因组,并不是单纯的将成百上千个个体进行测序比对,然后将所有比对不上参考基因组的 reads组装成一推新的contigs,然后将其和参考基因组拼接成泛基因组。这些新的contigs既不能准确的放回到参考基因组中,进而进行基因定位克隆,更下游的分析,并且运用于育种中。也不能很准确的代表该物种所有个体的基因多样性。他理想中的泛基因组是类似一个图谱型的基因组,在每个变异位点上展示,所有个体的基因(各种突变)序列信息。”
3. 无标准化分析流程
不同泛基因组研究中使用到的样本数量(>3),测序(>110X),构建泛基因组的策略,序列注释方法以及判断基因有无变异(PAV)的方法都有很大的差别。这导致了即使对同一种物种来讲,不同实验室构建的泛基因组序列及基因有无变异结果不能进行直接的比较;在不同物种之间,也无法从系统进化的角度分析基因在植物进化及农作物驯化等生物过程中的基因流失或基因复制等现象。所以,植物的泛基因组分析亟需建立一套操作方便,结果精确,可移植性强的流程,包括样本量的选择,基因组的测序、组装,泛基因组的构建,序列注释等一系列生物信息学标准化分析流程。