从又黑又小的野生大豆到又黄又大的栽培大豆,3月15日《自然—植物》在线发表的论文证实,在这个过程中丢失了约70%的基因位点。现在,科学家让这些丰富的遗传资源“回家”了。2022年3月14日,山东农业大学的作物生物学国家重点实验室在Nature Plants 发表了题为“Phylogenomics of the genus Glycine sheds light on polyploid evolution and life-strategy transition”的研究论文,该研究挑选了具有代表性的多年生大豆属物种组装构建染色体水平上的基因组(包括五个二倍体和一个年轻的异源多倍体),并与26个一年生大豆基因组整合构建了大豆属超泛基因组框架。比较基因组学分析发现这些多年生二倍体表现出更高的基因组稳定性,并且比一年生植物具有更少的着丝粒重复。鉴定出109827个多年生大豆中的非冗余基因位点,发现其中约70%的基因位点在一年生大豆亚属中丢失,为大豆育种提供了丰富的遗传多样性基础。同时,论文发现在异源多倍体中由于存在局部亚基因组分化而发生了有偏向的亚基因组分离,并鉴定到两个被注释为调控营养生殖阶段转变和侧枝生长的基因可作为多年生和一年生转变的候选基因,这提供了对多倍体基因组进化的见解,并为从多年生基因库中释放遗传潜力以进行大豆改良奠定了基础。
背 景
人们日常食用的大豆一年一种一收,然而它的野生种却可以多年生长。该团队首次获得了多年生野生大豆(即大豆Glycine亚属)的高精度基因组图谱,填补了大豆属泛基因组的空白,解析了大豆进化历程,高效、准确挖掘了大豆基因组的结构变异,拓宽了大豆分子育种可利用的基因资源,为大豆遗传基础解析、驯化性状调控基因挖掘及种质创新提供了重要理论支撑。
补全大豆属泛基因组图谱
从野生大豆到栽培大豆,驯化过程中到底发生了什么变化,此前科学家并不清楚。
庄永斌介绍,他们选取了5个具有代表性的二倍体和1个异源四倍体野生大豆进行全基因组测序。前者分别为Glycine亚属中A、B、C、D、F基因组型的代表,后者基因组型为AADD。研究人员综合利用二代、三代、Hi-C等测序技术,组装得到了染色体级别的高质量参考基因组,首次构建了Glycine亚属大豆泛基因组。
“由于之前已经有科学家完成了Soja亚属的大豆泛基因组,加上我们这次完成的Glycine亚属大豆泛基因组,可以说整个大豆属的泛基因组图谱已经全部完成了。”张大健说。
豆科植物由两个亚属组成,它们在大约 1000 万年前分化,其中一年生大豆在6,000 至 9,000 年前在东亚被驯化,约 30 种多年生大豆全部存在澳大利亚的不同区域(图1a)。大豆作为世界上种植最广泛的油料和蛋白质种子作物,由于其经济重要性,对一年生大豆栽培和野生种质的测序目前已取得巨大进展。遗传多样性已成为限制作物产量潜力和环境复原力的关键因素,多年生大豆物种代表了一个扩展的基因库,用于改进一年生作物的性状,例如每个豆荚的大量种子、对孢囊线虫和真菌病原体的抗性以及对干旱和盐胁迫的耐受性。已有研究报道,功能二倍体 (2n=38, 40) 大豆物种经历了两次全基因组复制 (WGD) 事件,它们与所有豆类(蝶形)豆科植物共享一个古多倍体事件,发生时间约为 65百万年前,但也经历了第二次单独的 WGD,发生在最近的约10 百万年内。有趣的是,在过去的 350,000 年中,多年生亚属中爆发了独立的异源多倍体事件,至少有八种不同的异源多倍体(2n = 78, 80)由八种不同二倍体基因组组合形成。因此,大豆属为了解多倍体基因组进化以及多年生和一年生之间的生命周期转变提供了一个极好的模型。
摘要
多倍性和一年生与多年生之间的生活策略转变在有花植物中比较常见。但对于多倍性的演化倾向以及一年生和多年生之间相互转变的遗传基础尚不清楚。本文组装了5个二倍体和1个新形成的异源多倍体,并整合26份一年生大豆基因组构建了一个大豆属超泛基因组框架。通过比较基因组分析发现多年生二倍体表现出更高的基因组稳定性。研究还发现异源多倍体中由于存在局部亚基因组分化而发生了有偏向的亚基因组分离,并鉴定到两个被注释为调控营养生殖阶段转变和侧枝生长的基因可作为多年生和一年生转变的候选基因,这提供了对多倍体基因组进化的见解,并为从多年生基因库中释放遗传潜力以进行大豆改良奠定了基础。
研究思路
解决的生物学问题
- 组装了大豆属的代表性多年生物种的染色体水平基因组,并构建了大豆泛基因组,为大豆的遗传改良和进化研究提供了更加全面的基因组信息。
- 阐明了多倍体基因组进化的倾向和后果,生活史策略转变的可能遗传决定因素,以及亚基因组分裂的原因和机制,为创制大豆高产优质新品种提供了有效的基因靶点。
结 果 RESULTS
1 染色体水平的基因组组装和系统发育分析
研究人员对大豆属中5个具有代表性的多年生二倍体物种falcata (FF)、stenophita (BB)、cyrtoloba (CC)、syndetika (AA)和G. tomentella D3 (DD)和多年生异源多倍体G. dolichocarpa (AADD)进行了高质量的基因组组装。根据k-mer估计的最佳情景,96.2-98.8%的基因组序列成功锚定到20条(二倍体)或40条(异源多倍体)染色体上,contigs N50在2.2-6.8 Mb之间,染色体N50在49-71 Mb之间。二倍体基因组的大小从941到1374 Mb不等,经注释得到55,376 -58,312个蛋白编码基因;组装得到的异源多倍体基因组为1948 Mb,注释得到113,697个蛋白编码基因。
研究人员以菜豆(Phaseolus vulgaris)和苜蓿(Medicago truncatula)为外类群,用830个单拷贝同源基因构建了多年生大豆与一年生大豆的系统发育树(图1a)。为了了解一年生和多年生二倍体大豆基因组之间的相对稳定性,研究人员通过与P. vulgaris比较来明确定义包括倒置在内的大片段重排,多年生大豆二倍体表现出较高的染色体水平保守性(图1b)。通过与大豆参考基因组Williams 82 (av2)的两两比较,确定了183个基因组重排,随机选择的10个倒置事件通过基于PCR扩增含有倒置接合位点的片段得到了验证,这些重排包括多年生特有的和一年生物种特有的(图1c)。总的来说,多年生植物的基因组重排比一年生植物的要少(图1b、d)。
分析显示,与一年生大豆相比,多年生大豆有几个不同的基因组特征,包括基因组重排率较低,单独LTR-RTs与完整LTR-RTs的比率较低,以及非核心基因出现的速度较慢。基因组重排通常由重复介导的重组事件形成,而单独的LTR是intra-element不平等重组的产物;因此,重组率和LTR单独形成率的差异可能反映了不同的不平等重组率。由于不平等重组往往与等位基因重组呈正相关,这种差异很可能与多年生植物和一年生植物的不同世代有关。多年生植物非核心基因形成速度较慢,也可能与代数减少有关,这将减少重组诱导的突变,导致基因序列的假基因化和逐渐降解。有趣的是,由K s反映的替代率在多年生和一年生植物之间没有显著差异。一种可能的解释是重组对自然选择有效性的潜在影响。另一种可能的解释是,相对于从普通栎(P. vulgaris)分化而来的长得多的分支,一年生和多年生谱系的独立进化时间相对较短,这被用作计算进化速率的参考。
2 转座子,着丝粒重复和基因间快速分化
在各类转座子(TEs)中,长末端重复-逆转录转座子(long terminal repeat-retrotransposon, LTR-RTs)最为丰富,LTR-RT家系在物种间表现出不同的扩增程度,这反映在它们的相对丰度和插入时间上(图2a、b)。在一年生基因组中很少看到Gypsy-LTR-RTs和Copia-LTR-RTs家族的LTR-RTs,LTR-RT扩增在很大程度上与局部基因组分化有关。除了LTR-RTs外,Mutator和Helitrons是促成多年生基因组大小变异和基因间区域分化的两个主要TE超家族(图2a)。大多数植物的着丝粒是由着丝粒卫星重复序列(CSRs)组成的,这些重复序列常被富含着丝粒的逆转录转座子(CRs)中断。在多年生基因组中很少检测到这些CSR的拷贝 (图2c),在平均的序列分化的基础上,Gm-Cent1和Gm-Cent2在F基因组上的同源基因(称为Gf - Cent1)与Gm-Cent2的相似度略高于Gm-Cent1 (图2d)。根据Gm-Cent1/Gm-Cent2物理邻接的相对频率和Illumina序列检测到的特异逆转录转座子序列,研究人员鉴定出Gmr17(富集于Gm-Cent1序列)和Gmr01(富含Gm-Cent2序列) (图2 e-g),作为一年生大豆基因组的CR家庭,而在多年生大豆基因组中没有发现类似的逆转录转座子家族(图2e、f、h)
植物着丝粒通常携带着CSR,作为维持着丝粒功能的完整。有些CSR在近亲之间差异很大,如Oryza 的近缘种间;有些CSR即使在分化了数百万年的物种之间也高度保守,如玉米和水稻。考虑到一年生和多年生谱系间的分化时间如此之短,多年生谱系中缺乏典型的CSR序列是一个令人惊讶的发现。然而,在一年生短柄草属植物中发现的着丝粒卫星在一些多年生短柄草属植物中没有发现。虽然已经对许多植物物种进行了测序,但对着丝粒序列的研究仅局限于少数物种,主要是一些主要的一年生作物。因此,要确定这些CSR是在这些多年生植物中丢失还是在一年生植物中产生,以及它们是否与生活史战略转变有关,仍然是一个挑战。
3 超泛基因组框架构建
为了进一步构建具有代表性的大豆物种的泛基因组,以及在局部和微观尺度上理解基因组进化,研究人员利用已测序的二倍体大豆基因组构建了一个超泛基因组框架。通过注释一年生和多年生二倍体的非冗余基因,将5个多年生大豆共享的同源基因称为多年生核心基因,其余为多年生非核心基因,而被所有一年生大豆共享为同源基因称为一年生核心基因,其余的称为一年生非核心基因 (图3a)。正如预期的那样,在一年生物种中观察到的核心基因比例高于多年生物种(图3b)。总体而言,多年生大豆和一年生大豆共有的 17,922 个核心基因表现出比 6,745个非核心基因更低的同义替换率(Ks)和非同义替换率(Ka),更强的纯化选择 (ω,即Ka/Ks),但核心基因和非核心基因均未显示两个谱系之间的 Ks,Ka 和ω差异(图3c-e)。在这些共享基因中,从~10 Ma WGD 中保留的重复基因在两个谱系中显示出较低的 Ka和更强的纯化选择强度(图3 h-f)。这些结果表明,在一年生和多年生谱系分化后的二倍化过程中,两种生长周期可能对基因进化产生不同的影响
4 适应性基因进化是生长周期转变的基础
为了找到大豆属多年生和一年生转变的候选基因,研究人员对这些多年生二倍体共享的所有直系同源基因及其用于构建野生大豆泛基因组的7个野生一年生大豆种质共享的直系同源基因进行了全基因组筛选,以确定它们在这两个亚属的分化过程中是否经历了适应性进化。在基因GO分析的基础上,有6个基因与细胞分化和花发育过程相关,其中两个基因在一年生和多年生亚属中都显示出极高水平的纯化选择(图4a、b)。这两个基因中的一个与拟南芥PARAFIBROMIN(PHP)基因直系同源(图4c);另一个基因是拟南芥DWARF14 (D14)的同源基因,该基因编码独脚金内酯受体。除了在一年生亚属和多年生亚属之间观察到D14同源基因的点突变外,同源基因在亚属之间也表现出不同的基因结构(图4d)。考虑到一年生和多年生大豆都分布在高度多样化的环境中,以及PHP和D14同源物种在一年生类群和多年生类群之间的适应性进化,这两组同源基因的纯化选择强度(图4e)和突变揭示的这些基因在拟南芥中的功能(图4f、g)可以一定程度解释生长周期转变背后的遗传基础。
5 近期异源多倍体的亚基因组分离偏向
冗余基因的丢失(分离)是多倍体化后的常见现象,大多数基因丢失发生在一个亚基因组中,祖基因组中TEs的密度是产生亚基因组之间表观遗传调控差异的关键,导致许多较弱表达的同源基因的丢失。
为了研究大豆亚基因组分离偏向,研究人员首先评估了A、D、At和Dt亚基因组之间的共线性,A和At, D和Dt都是高度保守的,并确定了A和At之间的10个倒置以及D和Dt之间的6个倒置(图5a),涉及45个基因的23个亚基因组间倒置被鉴定为异源多倍体化后事件(图5b)。A、D、At和Dt基因组之间的比较显示,其中Dt丢失的基因(4109个)多于At(3242个)(图5c),在A 和 D两个亚基因组中,singletons基因在基因组中损失较高 (图5 d),而在At和Dt两个亚基因组中,Dt中丢失的singletons基因数比在At中多,在At或Dt亚基因组中同时丢失的同源基因只占很少一部分(图5e)。而A 和 D 基因组中在At 或 Dt 亚基因组中失去同源基因的基因相对于两个同源基因都保留的基因具有更高的 Ka/Ks (图5f), 经历同源基因组丢失的基因比两个同源基因都保留的基表达更弱 (图5g)。同时,研究人员发现At或Dt中的基因缺失往往发生在每个基因少于5个的cluster中(图5h),而在A或D中保留的cluster中那些缺失基因的对应基因通常表现出一种共表达模式(图5i) ,相比之下,在At或Dt中单个缺失基因的A或D同源基因与其邻近基因之间没有见过这种共表达模式(图5j)。为了研究基因组分离的偏向重组,研究人员发现7351个基因缺失中只有13.1%的基因序列完全缺失,而45.3%和6.3%的缺失分别是由小Indels和SNPs引起的假基因缺失,另有4.4%的基因被TE插入打断(图5k)。为了阐明小缺失导致假基因化的机制,研究人员在异源多倍体的2315个基因中检测了2850个边界清晰的小缺失,31.2%的基因缺失带有2-18 bp的短重复,这是偏向重组的标志(图5l),表明偏向重组序列的逐渐缺失是亚基因组分离的关键机制。
亚基因组表达偏差在各种异源多倍体中都有报道,但只有多倍体及其二倍体祖先的基因组被破译,才有可能理解导致表达偏差的亲代遗传。多年生大豆异源多倍体,G. dolichocarpa,被用作研究多倍体进化的各个方面的模型。它的A和D二倍体祖先的完整基因组的可用性允许精确定义这两个亚基因组和TEs的全基因组分布,允许详细描述亚基因组进化模式。尽管同源交换越来越被认为是异源多倍体基因组进化的一种机制,但我们对非法重组知之甚少,将其描述为G. dolichocarpa进化的主要力量。本文报道的基因组序列提高了大豆作为探索文德尔所宣称的“奇妙的多倍体周期”的模型系统的价值。多年生大豆包括其他几种异源多倍体物种之间的共性可能是多倍体涌现特性的证据。这些物种的基因组中,大部分以G. tomentella或G. syndetika作为祖先,为多倍体进化的模式和过程提供了额外的线索。
总 结 CONCLUSION
综上所述,研究人员对6个具有代表性的大豆多年生植物进行了高质量的染色体水平基因组组装,并构建了大豆属的超泛基因组框架。在多年生植物中总共注释了 109,827 个非冗余蛋白质编码基因,其中约 70% 在一年生大豆泛基因组中不存在。这代表了通过远缘杂交、定向修饰或替换大豆基因或通过将多年生大豆从头驯化成新作物直接使用来改良一年生作物的巨大遗传潜力。除了基因组数据,本研究还阐明了多倍体基因组进化的倾向和后果、生长周期转变的可能遗传决定因素以及亚基因组分离的原因和机制。与一年生大豆相比,多年生植物具有不同的基因组特征,包括较低的基因组重排率、较低的singletons LTR 与完整 LTR-RT 的比例以及较慢的非核心基因出现速度。多年生植物中非核心基因的形成速度较慢也可能与减少的世代时间有关,这将减少可能导致假基因化和基因序列逐渐降解的重组诱导的突变。尽管已经对许多植物物种进行了测序,但着丝粒序列仅在少数一些主要的一年生作物物种中得到表征,因此要确定这些CRS是在这些多年生植物中丢失还是在一年生植物中产生,以及它们是否与生长周期转变有关仍然是一个挑战。虽然同源交换被视为异源多倍体基因组进化的一种机制,研究人员将亚基因组偏向重组描述为 G. dolichocarpa 进化的主要方式。总之,本文报道的基因组序列提高了大豆作为模型系统的价值,为多倍体进化的模式和过程提供了额外的证据。
大豆遗传改良还在路上
“我们在大量基因位点中筛选出两个基因——PHP和D14,它们可能在调控大豆一年生或多年生习性中起重要作用。”张大健说,PHP通过影响开花基因的表达来调控,而D14通过影响独脚金内酯来影响植株的表型。“这两个基因突变后,有可能将一年生大豆变成多年生大豆。”
评审人认为,该论文是对可利用植物的基因组学的重要贡献,为多年生和一年生植物的不同遗传学机制提供了更多深入的信息。
评审人说,在这篇论文中,作者鉴定了多年生和一年生大豆中复杂的基因组变异和进化特征,并利用大豆已知基因组信息结合新的组装方法构建了一个超级泛基因组,为大豆的遗传改良和进化研究提供了更加全面的基因组信息。不仅如此,作者还提出了多年生向一年生大豆转变的机理和异源多倍体中亚基因组分离的偏向性,全面解析了大豆属的进化历程。
文献来源:
Zhuang, Y., Wang, X., Li, X. et al. Phylogenomics ofthe genus Glycine sheds light on polyploid evolution and life-strategytransition. Nat. Plants (2022).
原文链接:https://doi.org/10.1038/s41477-022-01102-4
https://mp.weixin.qq.com/s/mX2dTLQvEMJZldFXxXO4ng
https://mp.weixin.qq.com/s/CeYGgE-6xoeT4PoLidulWw
https://mp.weixin.qq.com/s/VB2DfD1SQ1854ra7ao5sGQ
https://mp.weixin.qq.com/s/GaI8GauBf0wXyYWdv9ul-Q
https://mp.weixin.qq.com/s/YN5xI_R_iJ48pzYQMVe2ow
https://mp.weixin.qq.com/s/V2A1MnUBLIyYtn9GSTRdtQ
https://mp.weixin.qq.com/s/FOiF-LmR_ja8IlwE-RhF_g