随着越来越多的植物基因组的组装,人们发现一个单一的参考组装并不能反映一个物种的基因多样性,这导致了泛基因组概念的产生。2020年7月20日,Nature Plants在线发表了题为“Plant pan-genomes are the new reference”的综述文章,其回顾了泛基因组学在植物中的发展,探索了基因存在和缺失变异的起源,并展示了泛基因组如何支持植物育种和进化研究。
泛基因组反映了基因组中的结构变异和多态性,从而能够深入比较物种水平或更高分类水平中的变异。随着测序技术的发展,成本也随之降低,使泛基因组研究更普遍,越来越多的物种开始使用大样本量进行泛基因组的构建。
物种内有广泛的基因组多样性,泛基因组就是需要捕获这种多样性,同时去掉冗余的部分,生成一个整合的单个文件。泛基因组一般包括核心部分(core genome)和非必需部分(dispensable genome),核心部分存在于所有个体中,而可有可无的部分只存在于某个个体中。
在一定的时间尺度内,植物基因组是动态变化的,通常经过多轮全基因组复制或亚全基因组的分化。基因串联复制、转座子活性、缺失、基因组重排和重组等机制在植物基因组变异中也发挥着重要作用。这些可导致基因存在/缺失变异(PAV)和结构变异(SV)。
植物泛基因组的发展
泛基因组最早于2005年在细菌中发展起来,当时研究发现几种菌共有的核心基因组仅占80%,而剩下20%的基因组信息为个体菌独有。然而由于昂贵的测序费用,植物泛基因的构建花费了将近10年的时间。2007年,“泛基因组”一词第一次应用到植物中,该研究揭示了水稻和玉米基因组短的变异区域。
泛基因组组装方法
总的来说,植物目前构建泛基因组的方式有三种:迭代组装、多个体De novo、图形基因组。
迭代组装指将多个样本的下机数据比对到一个参考基因组后,将未比对上的reads组装成新的contigs。通过将这些新的contigs添加到原始的参考序列中,就可以构建一个泛基因组;
多个体De novo即对多个样本同时进行组装注释,从全基因组层面识别PAV,也是目前运用最广的方法;
图形泛基因组即在De novo的基础上,将物种基因组分为Dispensable genome与Core genome区域。
随着三代测序技术的快速发展,测序成本随之大幅度降低,植物泛基因组也迎来了黄金发展期。7个野生大豆的泛基因,揭示了与种子成分、开花、成熟时间、器官大小、生物量相关的变异信息;三个水稻的泛基因组揭示了S5杂交不育位点、耐淹基因Sub1A在另一品种的缺失;8个从头组装的甘蓝型油菜泛基因组揭示了两个与开花时间相关的PAV,这些早期的植物泛基因组研究产生了两个主要的发现:在每一个被研究的物种中都有一个很大的可变基因含量(15-40%),以及显示PAV的基因经常被注释为与生物和非生物胁迫耐受性相关的预测功能。
随后基于芝麻、木豆的泛基因组分析,表明泛基因组不仅可以用来追踪驯化和育种过程中基因频率的变化,而且PAVs还可以补充单核苷酸多态性(SNP)来进行GWAS分析。而PAV-GWAS引起了人们极大的研究兴趣,先后在1083份水稻、725个番茄和26个品系的2898个大豆中开展研究,这些研究检测到了新的基因,并揭示了这些新基因在农艺性状中的重要性。
已发表的植物泛基因组文献【Philipp et al, 2020, nature plants】
当然还包含最近发表的一些:
2021,cell(rice):Pan-genome analysis of 33 genetically diverse riceaccessions reveals hidden genomic variations. 【对31个水稻样本进行De-novo组装,并进行了染色体挂载,得到了31个高质量的基因组,并从各方面对基因组进行了评估,特别是其中30个基因组达到了LAI评估值>20的“gold standard”级别,仅一个是“reference”级别。然后对33个水稻(31个测序样本、日本晴和蜀恢498)进行共线性分析,将其他32个基因组的基因逐一比对到日本晴的基因集上,将无共线性的基因添加至泛基因组基因集中,直到来自32个基因组的所有基因都已添加到泛基因组中。最终获得含有了66636个蛋白编码基因的栽培种水稻泛基因组。】
2021,nature plants(sorghum):Extensive variation within the pan-genome of cultivated and wild sorghum.【选取了13个高粱样本进行De-novo从头组装,其中2个样本进行了三代PacBio 80X的高深度测序,其余样本则是使用三代(较低深度三代PacBio测序,大约40X)、二代数据混合组装的策略,且均挂载至了染色体水平(其中四个有hic数据支持,其他9个根据共线性提升至染色体水平)。将16个基因组的预测基因模型使用OrthoMCL聚类成基因家族,使用MCScan对16个基因组进行共线性分析,并对其进行分类(Core gene families、Shell gene、Cloud gene),最后以BTx623 基因组为参考,使用 minigraph 构建了图形泛基因组。】
2021,genome biology(Brassica rapa):Impacts of allopolyploidization and structural variation on intraspecific diversification in Brassica rapa。
2021,genome biology(cotton):Cotton pan-genome retrieves the lost sequences and genes during domestication and selection。
2020,nature(barley):The barley pan-genome reveals the hidden legacy of mutation breeding
泛基因组对作物育种的影响
早期构建植物的参考基因组,往往选择“历史品种”,但这些品种与现代栽培品种存在广泛差异,而泛基因组的出现有助于确定这些物种水平上基因含量的差异。多项研究表明,选取野生近缘种(CWRs)进行泛基因组分析,能够检测在驯化和育种过程中的基因保留和丢失,支持对丢失多样性的描述和将基因重新引入现代品种的潜力。例如,在南美洲和中美洲番茄驯化过程中与风味有关的基因发生丢失,后来又被重新引入。
对不同环境下野生物种基因分布进行研究,有助于培育更适应不同环境气候变化的作物。前面提到,PAV基因容易富集在对非生物和生物胁迫反应有关的通路中,尤其是抗病相关通路,类似的结论在单子叶、双子叶甚至人类中都有发现。这些观察结果导致了pan-NLRome的概念,这是一项专门关注核苷酸结合富含亮氨酸重复序列受体(NLR)抗病基因的泛基因组研究。值得注意的是,有些物种(例如无油樟)抗病基因不存在于PAV中,而存在于核心基因中。
总之,PAV与非生物胁迫及环境适应的相关性,可支持未来的作物育种策略。
植物变异基因的起源
Variable基因的重要性已经得到验证,但关于Variable基因的起源机制却知之甚少。目前研究表明,新基因可以通过全基因组复制(WGDs)、局部串联复制、TE介导的复制、片段复制、相关物种的导入、水平基因转移和新生基因诞生获得。
研究者先后从多倍体植物的WGD事件、亚基因组优势,二倍体的同源交换事件(HE),TE介导的PAV等方面论述了不同的得失机制对整个物种基因含量的相对贡献,为选择导致可变基因频率的变化提供了新见解。最后,作者指出对lncRNAs的详细注释和分析可以扩展植物可变基因库。
总的来说,泛基因组研究进展非常迅速,然而目前泛基因组领域还有很多亟需解决问题:首先,如何更好地把最新的测序技术、生物信息学技术乃至数据技术应用于泛基因组组装,更高效地构建高质量且具有广泛代表性的泛基因组。三代测序技术和基因组组装技术在泛基因组组装中的应用,提高了泛基因组的质量。然而如何解决大规模群体的稀有遗传变异捕获问题,提高泛基因组的代表性,还需要综合运用新的组装技术和策略,开发相应的技术流程。另一方面,人工智能技术在泛基因组组装和研究中的应用,可以自主识别泛基因组数据中的一些模式,有可能有助于解决泛基因组组装和功能研究中的某些挑战。
第二,如何更好地解析泛基因组的变异数据,并进行重要农艺性状相关遗传变异的鉴定,是泛基因组应用研究的最大挑战。构建合适的数据框架,更有效且更有逻辑地通过泛基因组呈现群体内的结构变异,并使这些变异信息更适合生物信息学算法处理,是泛基因组应用研究的核心框架。其中基于图论(graph)的泛基因组数据结构化和可视化技术是目前这方面研究的热点。最新的大豆泛基因组的构建和分析已经利用相关技术构建了基于图(graph-based)的泛基因组和变异图谱。然而这个领域目前还尚在发展初期,相应的技术和算法尚未成熟,另外,利用泛基因组图(pangenome graph)作为参考基因组应用于生物信息学分析,相对于线性参考基因组,需要更复杂的计算和更多的计算资源,这是目前泛基因组图在应用上的主要困难之一。开发完整的泛基因组数据分析流程和工具,使泛基因组数据与表型数据能有效整合,是泛基因组应用于遗传变异发掘研究的技术支撑,然而目前这部分研究还很少,相应的理论和流程都不成熟。因此,泛基因组变异数据结构以及相适应的遗传变异发掘流程和工具的开发是未来泛基因组应用研究的重点之一。
第三可视化工具已经被开发用于泛基因组,虽然其中一些可以适应于植物,但很难为大规模的样本设计可伸缩的解决方案。大多数为泛基因组开发的可视化工具要么基于参考基因组结构,要么需要用双向变异图(VG)从头组装,以便正确显示可有可无的区域和位置。例如,ppsPCP和CoGe 使用组装好的植物基因组进行比较,然后使存在/缺失变异(PAV)等可视化。一些植物泛基因组的研究已经发布了专门用于数据可视化的工具,例如 RPAN 有 3000 个水稻基因组,GBrowse 有 16 个小麦品种,Brachypan 有 54 个二穗短柄草。这些工具可以在泛基因组数据库中搜索基因和可视化,提供基因组序列、基因注释、PAV信息和基因表达信息的访问。开发用于其他物种的可视化工具是必要的,可以促进更深入的综合分析和用于作物改良。
本文使用 文章同步助手 同步