Introduction
大多数蕨类植物的大基因组和复杂度,阻碍了其通过基因组组装来阐明蕨类生物学和陆地植物的进化。本研究对水蕨(Ceratopteris richardii)进行了染色体水平的基因组组装,以及相关的甲基组、转录组和代谢组分析。
该组装揭示了一段非常动态的基因组进化历史,包括大约6000万年前最近一次全基因组复制后基因组内容和结构的快速变化。包括大量基因丢失、串联复制和来自细菌的多个水平基因转移,导致与防御相关的基因家族多样化。
转座子插入到内含子导致了水蕨较大的基因组和比其他植物更长的基因。基因家族分析表明,控制种子发育的基因来自控制蕨类植物孢子囊发育的基因,这为研究种子植物进化提供了新的见解。
Results
1. 转座子对基因组大小和内含子长度的影响
该研究组装了7.46 Gb大小的基因型为 Hn-n 的 Ceratopteris 基因组(图1b)。该组装包含10785个contigs,contig N50为2.3Mb,Scaffold N50为182Mb,93.5%的组装序列挂载到 Ceratopteris 的 39 条染色体中(表1),是迄今为止最大的具有染色体组装的单倍体基因组之一。
Ceratopteris的重复序列占基因组的85.2%。长末端重复(LTR)占67%,其中Ty3超家族占基因组的23.8%,Ty1超家族占28.2%。这些超家族的LTR反转录转座子平均长度分别为2,301和1,492bp(图1c)。
蛋白质编码区结合从头计算预测和来自十个组织和发育阶段的 Iso-Seq 和RNA-Seq 的转录本证据相结合(图1a),总共注释到 36,857 个蛋白质编码基因。发现了 706 个长度超过100kb的 Ceratopteris 基因,内含子占 Ceratopteris 基因组的 30% ,内含子长度超过10kb的基因有17745个(图1d)。
在拟南芥和水稻中,其平均内含子长度分别为 152 和 387bp,证明内含子长度与基因表达之间存在正相关,进一步发现 Ceratopteris 的基因总长度与表达量之间没有相关性,说明其可以作为研究内含子长度和含量对基因的表达和成熟mRNA功能方面的模型(图1e)。
2. WGD 被快速的基因组进化掩盖
为了更全面地阐明 WGD 对 Ceratopteris 和蕨类植物进化史的影响,我们采用了基于分歧的、基因组和系统发育的方法。通过对Ceratopteris的类群同义替换(Ks)分布的分析,峰值为1.3,可以推断出一个单一的WGD事件。串联基因复制极大地影响了 Ceratopteris 的基因组内容和结构,因为最近的串联复制占了 Ks 分布中的平行序列对的很大比例(图2a)。
使用 Multi-tAxon Paleopolyploidy Search (MAPS) 和 NOTUNG 对超过5,000个基因家族的系统发育分析,包括来自 Ceratopteris 和其他蕨类物种的蛋白质序列,发现过去300万年内 Ceratopteris 谱系上的两个WGD事件,表明 Ceratopteris 与其姐妹枝分化后的最新的WGD(CERAα)仅在62Ma(图2b)。
为了评估 Ceratopteris 与其他陆地植物基因组的同步性程度,我们比较了 Ceratopteris 、两种已测序的水蕨类植物(Azolla filiculoides 和Salvinia cucullata )、裸子植物(Ginkgo biloba)和WGD历史上的27种被子植物的同步性区段长度。在所采集的被子植物中,只有禾本科植物的共生节段平均长度小于Ceratopteris。这些结果表明,尽管陆生植物之间的同步性保留可能有很大的差异,但 Ceratopteris 和其他被分析的非被子植物的基因组相对于被子植物来说要细分得多(图2c)。
3.Ceratopteris的DNA甲基化
大多数基因组特征都存在CG和CHG甲基化(H = A, C or T),CHG甲基化在重复序列和异常大的内含子中尤其丰富,Ceratopteris基因组中似乎没有CHH甲基化,因为CHH甲基化不能很容易地与背景区分开。有趣的是,被子植物59种常见的基因体DNA甲基化(GBM)也存在于Ceratopteris中,GBM只与CG位点的甲基化有关,并存在于经常结构性表达、进化缓慢并具有管家功能的基因中(图3a-e)。
4.绿色植物间的基因家族进化
同源孢子蕨类植物繁殖相关基因的鉴定及其表达模式分析可以阐明驱动异源孢子蕨类植物和种子植物,繁殖生物学变化的基因进化和潜在来源。尽管 Ceratopteris 配子体和孢子体之间在形态和生理上有很大的差异,但在配子体和孢子体中分别只有273和1397个基因特异表达(图4a),346个基因仅在减数分裂组织中表达,而1270个基因仅在非减数分裂组织中表达,超过30,000个基因在两个数据集中表达(图4b)。
为了更好地理解种子、花和果实产生的进化过程,本研究鉴定和分析了拟南芥和其他被子植物中与开花诱导有关的Ceratopteris基因家族。在 Ceratopteris 中鉴定了10个FT基因,而在Arabidopsis 和 Azolla filiculoides 中分别鉴定了6个和4个。只有表达最广泛的一个Ceratopteris FT基因位于包含拟南芥基因AtMFT的分支中。有趣的是,7个 Ceratopteris FT同系物仅在减数分裂组织中高度表达,这表明这些FT同系物可能与蕨类植物的孢子发育有关,先于被子植物的开花调节功能(图4c)。
MADS-box 基因在几乎所有真核生物中都被发现,但在绿色植物中扩展最多,在绿色植物中,它们因在植物结构和发育的许多方面发挥作用而广为人知。通过系统发育树的构建,我们鉴定出了35个 Ceratopteris 基因组中的 MADS-box 基因,分为8个I型和27个II型MADS-box基因,根据对II型基因的系统发育分析,将II型基因进一步细分为MIKCC-和MIKC*-组基因(图4d)。
5. HGT 与防御基因的进化
在 Ceratopteris 的 9 号染色体上发现了 36 个串联重复的 aerolysin-like 蛋白质编码基因(图5a),这个基因在细菌中的研究比较多,因为它编码一种形成孔的细胞溶解毒素,广泛用于生物纳米孔的研究。该基因在不同的生物界中反复发生HGT(水平基因转移),并在 Ceratopteris 的不同组织中亚功能化。在9号染色体上的34个 aerolysin-like 基因在茎和根中高表达,34号染色体上的3个 aerolysin-like 基因均在不育叶片中高表达。
Phylogenetic placement of the fern Tma12 genes among bacterial sequences suggests that the fern genes originated from HGT from bacteria to ferns20 (Extended Data Fig. 4a).
Similar to increased defensive metabolite production in unripe fruits79, Tma12 expression in Ceratopteris may be an adaptation that protects the sporangia from insect attack before spore dispersal.
在 11 号染色体上发现了第二个串联重复的基因 PADs(phenolic acid decarboxylases ),常被用作生物催化剂。到目前为止,PAD基因只在细菌中被发现;然而,我们在 Ceratopteris 中发现了 26个PAD基因 ,其中21个起源于11号染色体上的串联复制,进一步通过转录数据集发现只存在于带有细菌的薄囊性蕨类植物中(图5b)。
PADs 在 Ceratopteris 中已经 亚功能化,因为20个基因在可育叶片、孢子囊和配子体中高度表达,而其余6个基因普遍在所有组织和发育阶段表达(图5c)。
HGT 与通过串联复制的快速多样化以及 Ceratopteris 中这些基因的亚功能化共同提供了对陆地植物进化和新基因整合的独特见解。
6.蕨类植物基因组学的药用潜力
蕨类植物长期以来一直被用于世界各地的传统医学,最近成为治疗癌症、糖尿病和骨关节炎的生物勘探药物化合物的来源。在这里,作者利用来自Ceratopteris的基因组资源,并对孢子体组织进行代谢物分析,以研究Ceratopteris产生的潜在药用化合物及其产生的基因。
从Ceratopteris可育叶片组织的代谢物分析鉴定了几种已知的药用化合物,包括8种蕨苷、7种黄酮类、3种咖啡酸和2种萜类化合物(图5d)。Ceratopteris中鉴定出906种高可信度代谢物,而在小麦和水稻中鉴定出644种代谢物,其中57种是仅在Ceratopteris中检测到的独特化合物,131种是新化合物,因为它们无法使用已知的代谢组数据库进行注释。
除了此类代谢分析,高质量Ceratopteris基因组将促进我们对这些已知和新型化合物的分子起源和功能的理解,从而有利于在蕨类植物中发现药物以改善人类健康。
Conclusions
尽管长期以来一直存在蕨类植物中WGD较多的假说,但Ceratopteris基因组组装揭示了至少两次WGD事件分布在蕨类植物进化的300万年中。相比之下,拟南芥和水稻的基因组在大约125万年的开花植物进化过程中分别展示了三组独立的WGD事件。在最近的WGD中,由于频繁的串联复制、分裂和基因组重排,导致共线基因组片段也不明显。与防御相关的基因家族通过广泛的串联复制而扩大,可能起源于不同的HGT和细菌。此外,本研究追踪了涉及花和种子发育以及整个植物结构的基因进化到蕨类基因中的同源物。
利用本研究提供的遗传、基因组和代谢组学资源,Ceratopteris可以成为下一代植物生物学的主要的模式植物。总之,Ceratopteris基因组数据为未来在该蕨类模式中研究基因功能提供了关键资源,并促进了植物生物学、基因组进化、生物技术和医学方面的研究。