葱属植物是一个大的单子叶植物类别,含近千个物种,其中不少物种具有显著的经济价值。大蒜是重要的葱属作物之一,我国大蒜的年播种面积达到1000万亩以上。**大蒜具有膨大的鳞茎,富含大蒜素,不仅可用作蔬菜和调味料食品,也被广泛用于医药产业。大蒜基因组未知,且栽培种大蒜一般不育,严重阻碍了大蒜生物学研究及大蒜育种工作。
大蒜属于二倍体物种(2n=16),但大蒜基因组非常大(16.9 Gb),且具有重复率高(预估> 80%),杂合度大(~1.68%)等特点,属于非常复杂的基因组为了解码大蒜基因组,中国农业科学院麻类研究所刘头明研究团队,联合山东农业大学,西北农林科技大学,武汉大学和诺禾致源生物科技公司,历时四年完成了大蒜基因组的测序和组装工作,研究结果以“A chromosome-level genome assembly of garlic (Allium sativum L.) provides insights into genome evolution and allicin biosynthesis”为题,在线发表在Molecular Plant(影响因子 12.084)上。
该研究综合利用PacBio,Nanopore,Illumina PE,10X Genomics和Hi-C技术开展了大蒜的基因组测序,测序数据量达到4.3 Tb。
经过组装后得到的基因组大小为16.24 Gb, Contig 和superscaffold N50分别为194 kb和1.69 Gb。单条染色体最小的为1.35 Gb,最大的达到2.16 Gb。注释分析发现大蒜基因组中含57561个基因,BUSCO和CEGMA评估证明大蒜基因组组装质量较好。作者还通过大规模的转录组数据来表征了大蒜不同组织以及膨大鳞茎不同发育时期的基因表达模式。大规模转录组分析共鉴定到847个鳞茎中特异表达的大蒜基因,5881个鳞茎膨大期间差异表达基因;另外,在102个大蒜品种中,完成大蒜鳞茎的基因表达与鳞茎重量性状的皮尔森相关性分析。结合这些基因表达结果发现多个WOX家族基因和生长素相关基因可能参与到鳞茎发育。
大蒜基因组作为首个葱属物种中完成测序的基因组,对于研究物种进化具有重要的意义。研究团队基于基因组系统进化分析发现大蒜与天门冬科芦笋在大约80.8百万年前发生了分化。大蒜在进化过程中发生了三次全基因组复制(WGD)事件,其中两次发生在与芦笋分化之前,另有一次近期的WGD事件发生在17.9 MYA。此外,大蒜基因组在~20-30万年前转座元件发生急剧扩张(另外,这次转座元件的爆发也解释了与大蒜素和菊粉类新型果聚糖生物合成相关基因的演化,为这两个化合物的生物合成提供了新的视野。),导致基因组中高达91.3%的序列为重复序列,这是迄今为止所发现的重复序列比例最高的基因组。因此,该研究推断大蒜的三次全基因组复制事件及重复序列急剧扩张是驱动大蒜基因组庞大的根本原因。
最后,本研究通过基因组扩张收缩分析,发现菊糖型果聚糖合成关键酶6G-FFT基因和蒜氨酸酶基因发生了急剧扩张,推测它们可能分别与大蒜特有化合物菊糖型果聚糖和大蒜素的生物合成进化相关。结合转录组数据,该研究确立了大蒜素生物合成通路,发现4个串联重复的蒜氨酸酶基因随着大蒜鳞茎发育,其表达量持续上升,推测它们与大蒜鳞茎中的蒜氨酸酶积累相关。
据悉,此次完成测序的品种为二水早紫皮蒜,也就是俗称的四川蒜。刘头明解释称,之所以将二水早紫皮蒜选为首个测序的品种,是因为它适用性广,在我国种植地域也最广。山东农业大学孙秀东副教授,李宁阳副教授和乔旭光教授,中国农业科学院麻类研究所朱四元研究员,程毅副研究员,诺禾致源生物公司赵静博士为本文第一作者,中国农业科学院麻类研究所刘头明研究员,粟建光研究员,西北农林科技大学程智慧教授为论文通讯作者。本研究受到了国家重点研发项目,中国农业科学院农业科技创新工程和国家自然科学基金项目资助。
Analysis of LTR Retrotransposons
Full-length LTR retrotransposons were identified in the garlic and Asparagus officinalis genomes using LTR_FINDER (Xu and Wang, 2007) and LTRharvest (Ellinghaus et al., 2008) with default parameters. Candidate LTR sequences were filtered as described by Hu et al. (2011). Briefly, only sequences containing intact LTR domains that belonged to families with more than two members were retained. Full-length LTRs were subsequently translated into amino acids in three frames. Translated sequences were mapped against the Ty1_Copia (PF07727) and Ty3_Gypsy(PF000078) domains in the Pfam database using HMMER (http://hmmer.org) with E-values % 1e5.
Sequences that mapped to the Copia and Gypsy superfamilies were aligned using MAFFT(https://mafft.cbrc.jp/alignment/software/) with default parameters. The phylogenetic trees of LTR-RTs in the two superfamilies were constructed using FastTree (http://www.microbesonline.org/fasttree/).
论文链接:https://www.cell.com/molecular-plant/fulltext/S1674-2052(20)30232-X
参考:http://www.360doc.com/content/20/0731/06/57935769_927740040.shtml