简介:
巨大且高度重复的南极磷虾基因组揭示了地球上最为丰富的野生动物的环境适应性和种群动态
Highlights
1、48.01GB染色体水平的南极磷虾基因组组装;2、广泛的重复序列扩展促成了巨型南极磷虾基因组;3、遗传适应南极环境的极端变化;4、种群分析显示南极磷虾没有明显的地理分化。
摘要
南极磷虾(Euphausia superba)是地球上最丰富的野生动物,其巨大的生物量对南大洋生态系统至关重要。 在这里,我们报告了48.01-GB染色体水平的南极磷虾基因组,其超大的基因组大小似乎是由基因间转座元件扩展引起的. 我们的AssemBly揭示了南极磷虾生物钟的分子结构,并揭示了与蜕皮和能量代谢相关的扩展基因家族,为适应寒冷和高度季节性的南极环境提供了见解。来自南极大陆周围四个地理位置的种群水平基因组重新测序没有揭示清晰的种群结构,但突出了与环境变量相关的自然选择。10万年前,磷虾数量明显急剧减少,随后反弹,这与气候变化事件相吻合。我们的发现揭示了南极磷虾适应南大洋的基因组基础,并为未来南极研究提供了宝贵的资源。
介绍
磷虾是磷虾目软甲类甲壳动物,是各大洋浮游生态系统的重要组成部分。南极磷虾(Euphausia superba)(图1A)的生物量为3-5亿吨,是地球上所有野生动物物种中最大的1。高度丰富的物种是南极海洋生态系统的基石,形成了初级生产者和较高营养级之间的生态联系——从冰藻到鱼类、鸟类和海洋哺乳动物2。南极磷虾在碳的生物地球化学循环中起着至关重要的作用,并再循环促进南大洋浮游植物生长的微量元素铁3,4。最近的研究支持南极磷虾存在内源性计时系统,使重要的生命周期事件与南极的海洋区域性极地环境同步5。然而,关于南极磷虾适应以日长、食物可利用性和海冰范围的高季节性为特征的环境的分子机制的知识是有限的5–9。还没有确定是否存在人口统计学上分离的人口10,11。磷虾基因组估计为42–48千兆碱基(GB) 12,13。到目前为止,其庞大的基因组规模和复杂性阻碍了其组装,并阻碍了对南极磷虾适应的遗传基础的研究13,14。然而,最近对肺鱼15,16和墨西哥蝾螈17,18的研究表明,大型动物基因组组合中固有的令人生畏的技术挑战是可以克服的. 在此,我们对南极磷虾进行了测序、组装、基因组特征分析和流行遗传分析。
结果
染色体水平的基因组组装与评价
为了组装南极磷虾基因组,我们生成了3.06 T碱基(TB)PacBio连续长读取(CLR),734.99GB PacBio高保真循环一致性测序(HiFi-CCS)读数,4.01 TB短读数和11.38 TB Hi-C reads(表S1), 基因组组装产生了48.01 GB的基因组(表S1),这是迄今为止报道的最大的动物集合,它比墨西哥蝾螈(17,18)大50%,比两种肺鱼大20%-30%(15,16)。所述组件具有较长的重叠群N50(178.99千碱基[kb])多于154个可用的无脊椎动物基因组装配中的120个(图1B;表S1)。 它的支架N50也是1 带66的08 GB 01%的重叠群锚定在17条染色体上,19,20,而未锚定的重叠群较短,基因密度较低(图S1A;表S1) 使用基于基因组短读数、转录组数据和非外显子超保守元件(真核生物的UCEs)的评估,与其他软甲甲壳动物装配的比较显示,尽管南极磷虾装配的尺寸大得多,但其质量和完整性相当(表S1;Star方法)。 重复序列,特别是长的几乎相同的重复序列,可以极大地影响基因组组装21。与脊椎动物基因组相比,无脊椎动物基因组通常具有更大比例和单位长度的串联重复序列(TR),这可能是导致其组装困难的原因22。 南极磷虾基因组中的重复DNA异常丰富,这使得基因组组装特别具有挑战性。 最常见的卫星重复序列的单位长度比可获得的最密切相关的无脊椎动物基因组中的更长,甲壳类动物Procambarus virginalis(t检验,P<2.23*10-16)和凡纳滨对虾(t检验,P<2.23*10-16)(图1C;表S2) 我们发现,基因组组装含有很大比例的TRS(25 77%),这仍然被低估,因为TR很难组装,特别是对于具有长单位长度(>50碱基对[BP])和高丰度的TR(图1C;表S2)。 高TR比例影响基因组组装,表现为重叠群长度与观察到的TR之间的负相关(Pearson s R=0。 14P<104)(图S1B) 蚂蚁北极磷虾基因组在10kb窗口)中的重复区域密度(高于墨西哥蝾螈、肺鱼和两种马陆甲壳类动物(t检验,P<2 231016)(图1D) 我们还发现93 43%的重叠群以重复序列结束,具有高序列相似性(同一性>98%)的相邻TEs在装配中以短间隔聚集,形成延伸的重复片段(图S1C)。
巨型无脊椎动物基因组的属性
巨大的基因组大小在南大洋和北大西洋的甲壳类动物中似乎很常见,但在南极磷虾中没有多倍体(全基因组复制)的证据12。我们的基因组组装揭示了巨大的南极磷虾基因组可归因于重复序列扩展15。 使用标准重复序列掩蔽法鉴定出72.15%的基因组为重复序列,额外重复注释后最高可达92.45%,略高于澳大利亚肺鱼报告15(90.00%)(图1E;表S2) 转座因子(TEs)组成78.22%的南极磷虾基因组和DNA TES构成了最大的部分(表S2) 值得注意的是,DNA/CMC-ENSPM占91.91%的DNA TES,形成基因组的42.02%(表S2) 北极磷虾DNA/CMC-EnSpm系统进化树 Vannamei和P Virginalis在南极磷虾中没有发现显著扩张的特定分支(图1F)。 我们在南极磷虾基因组中注释了28,834个蛋白质编码基因,其基因模型与其他相关物种的基因相似,编码序列长度与全长转录本的长度相当(图S1D和S1E;表S1)。 南极磷虾的基因和内含子长度明显短于肺鱼和墨西哥美西螈(图S1D和S1F;表S1),这表明与基因组大小相当的脊椎动物相比,南极磷虾基因区域中插入的重复序列扩展是有限的 然而,与其他46种已发表的海洋脊椎动物相比,南极磷虾中TE插入的普遍性显著增加了内含子长度(图2A和S1F)。 先前的一项研究报道,将TES插入基因并不会对非洲肺鱼的基因调控产生很大影响。 16类似地,我们还观察到,南极磷虾和其他无脊椎动物物种之间以及南极磷虾组织之间的基因长度与基因表达水平无关(图S1g–S1j)
重复序列扩展的动力学及其遗传机制
与其他46种无脊椎动物基因组相比,南极磷虾的重复亚型更普遍,但显示出相似的组成和扩展模式(图S2a;表S2)。 在脊椎动物中观察到TRS和TES的比例呈正相关(图S2b)。 在南极磷虾中,大多数(96.39%)TRS与TES(DNA转座子、长末端重复序列[LTR]和长散在核元件[LINE])重叠(STAR方法)高比例的TRS可能是由于TE扩增与相关TRS的滑移突变有关,如最近报道的两种对虾(L 南美白对虾和中国对虾)。 23南极磷虾的GC含量为29.36%,低于154个中的140个90.91%)公布的无脊椎动物基因组组装(图S2C和S2D;表S1) 这种低GC含量反映了大量缺乏GC的DNA转座子(图2B)。
有人认为,CpG二核苷酸丢失伴随着TES导致的基因组大小扩增,这限制了TES插入的有害影响24. 我们在南极磷虾中观察到两个假定的TES扩张事件,36和170Mya(图2C)。 最近的一次活动促成了它们基因组扩增的39.51%,接近磷虾的出现时间,磷虾是一种基因组大小一直很大的磷虾属,12,25,而另一种基因组扩增的比例为18.54%(图2C;表S2)
TES在宿主基因组中的积累水平是由长时间尺度上TE活性和抑制的平衡造成的24,26,27。 为了在南极磷虾中研究这一点,我们使用蛋白质结构域PFAM数据库对基因组进行了比对。前20个域名占55.91%的检测到的PFAM是主要的,并且20个结构域中的11个在转座因子(TE)活性(图2D)中起作用,例如逆转录酶UNK6RVT_1)和整合酶UNK7整合酶_H2C2UNK8。 值得注意的是,在20个顶级结构域中,我们发现3个结构域(ZF-H2C 2_2、ZF TRM 13_CCCH和ZF-MYND)的密度高于46个其他无脊椎动物物种(Z评分>3)(图2D)。 在TRM13甲基转移酶蛋白的N末端发现结构域ZF-TRM 13_CCCH,而在含有SET和MYND结构域(SMYD)的甲基转移酶蛋白中发现ZF-MYND 29。 DNA甲基化可能使TE驱动的基因组扩增成为可能24,30。我们推测,这些蛋白质结构域尤其与南极磷虾基因组大小动态有关
南极磷虾环境适应的基因组基础
南极磷虾之所以能够在南海维持较高的丰度,是因为它们进化出了季节同步策略7。这使得适应光照、温度和海冰的高度变化成为理解南极磷虾季节性生命周期的关键5–9。光线和温度变化可以诱导和重置昼夜节律系统31,32。南极磷虾暴露在寒冷的环境中,季节变化引起剧烈的光照变化,并进化出昼夜节律的遗传适应。 有人提出,在南极磷虾中5,与其他真核生物一样33,转录因子Clock(CLK)和Cycle(CYC)结合编码其抑制剂Cryptochrome2(CRY2)、Period(PER)和Timeless(Tim)的基因上游的E-box元件,以产生自我维持的昼夜节律(反馈环)。 我们发现南极磷虾基因组中的625个基因在其启动子区内含有至少一个E-box(南极磷虾特异性共有序列CA[AT/TA]TG)(表S3)。 其中包括主要的时钟抑制剂PER、Tim和CRY2,以及直接调节CLK和CYC表达的三个关键昼夜节律转录因子VRI、PDP1和REV-ERB。 我们的发现提供了磷虾生物钟的分子结构模型(图3A),证实了可能存在双反馈回路机制5。许多潜在的时钟控制基因(58.3%)。在以前的研究中显示出每日振荡表达谱6(表S3)。 我们进一步分析了生物节律反馈环中基因表达的季节性差异,发现四个昼夜节律基因(CLK、CRY1、Nemo和PDP1)在夏季和冬季之间表现出差异表达(图3A)。 CLK、CRY1和PDP1在夏季上调,而Nemo在冬季上调(倍数变化[FC]>2,Benjamini Hochberg校正P值[P-adj]<0 01)(图3A)。在果蝇中,Nemo是一种调节生物钟速度的丝氨酸/苏氨酸激酶34。冬季Nemo表达的增加可能表明其参与了向静止状态的复杂转变,此前有报道称,这受到南极磷虾生物钟的影响6,导致性退化和活动、生长和代谢率下降 35.
南极磷虾进化出了生理适应性和行为模式,由昼夜节律系统控制,这有助于它们保存能量并在低温和剧烈变化的光照条件下生存36。它们可以在整个生命周期中不断蜕皮,但它们的生长速度随季节变化37。冬季南极磷虾的蜕皮间期通常是夏季和秋季的两倍(每26-29天一次),37与摄食制度几乎没有关系 4、在南极磷虾基因组中鉴定出25个显著扩展的基因家族,(P-adj<0.05)(图3B;表S3)。 12个直接参与蜕皮周期(6个家族)和能量代谢(6个家族)(图3C)。 这些家族中的大多数基因被表达,表明额外的基因拷贝是功能性的(图3D;表S3)。
甲壳素是甲壳类动物表皮的重要组成部分。 南极磷虾中编码几丁质结合蛋白的基因的扩增(图3E)可能反映了蜕皮周期中表皮形成和吸收的精细调节 38与能量代谢相关的6个扩展基因家族可以降低连续蜕皮的维持成本(图3C;表S3) 这些家族包括编码具有ATP结合结构域的蛋白的基因,包括MHC、DDX5和DDR2(表S3)。 特别是,我们注意到北极磷虾中有69个肌球蛋白基因(平均比其他物种多16倍)(表S3) 肌球蛋白基因扩增可能具有一系列与南极磷虾独特的生命周期相关的功能,例如与冬季身体萎缩相关的肌肉收缩8。
我们鉴定了几个在夏季和冬季之间差异表达的基因。 编码卵黄蛋白原(VTG)的基因En的所有6个拷贝在夏季海生(FC>2,P-adj<0 05)(表S3)。 VTG是无脊椎动物必需的卵黄蛋白,在需要能量的产卵季节提供营养库。 39个额外的能量代谢相关基因——包括CysC、PFK和PKLR——在夏季也表现出上调(图3F),并可能支持此时卵黄发生增加和频繁蜕皮 PNLIPRP2(一种消化脂肪酶基因)的两个同源物之一在冬季海洋SON期间上调,可能有助于在食物短缺期间生存40,41(图3F;表S3)。此外,促进蜕皮和生长的基因(JHE、JHE-like CXE和CHT10)在食物供应充足的夏季上调,而抑制蜕皮的基因(JHAMT和CASP2)在冬季上调(图3F)。 这一发现与之前的一项关于南极磷虾在相对高温、长时间光照和食物供应增加的情况下蜕皮的研究相一致37。这些结果表明,蜕皮周期和繁殖中的基因组创新是对南大洋极端季节性食物供应的适应。
南极磷虾种群动态
关于南极磷虾是否代表南大洋Panmixia的单一遗传同质种群,长期以来一直存在争议10,11。为了研究南极磷虾的种群结构,我们从南大洋四个高生物量区域:大西洋部分的南乔治亚岛(SG)和南设得兰岛(SSI)、印度洋部分的普里兹湾(Pb)和太平洋部分的罗斯海(RS)收集了75个个体,并进行了基因组测序,平均深度为17 723(图4A;表S4) 我们应用了多个质量控制步骤,并获得了364 5700万个SNP,平均密度为每37bp一个SNP(表S4;STAR方法),可用于南极磷虾的群体基因组分析 平均核苷酸多样性(QP)和观察到的常染色体杂合度为2 253103和2 分别为083103,在四个地理群体中具有相似的遗传多样性(表S4)。 我们还观察到南极磷虾地理群之间的低成对FST值,最大FST为1 923103(图4B)和仅0 052%SNPs的FST>0 15(表S4) 非常低的平均FST和小百分比的分化SNPs表明,在地理群体内和地理群体之间没有实质性的分化 这些结果——连同使用Abba-Baba统计42(图S3a)、TreeMix推断43(图S3b和S3c)和BA3-SNPS44(图S3d)推断的Pb、RS、SSI和SG之间的基因流和遗传连接性——表明南极磷虾地理群之间在大地理尺度上的广泛混合和连接性.
然而,主成分分析(PCA)(图4C、S3E和S3F)、多维尺度分析(MDS)(图S3G)和邻接树(NJ)(图S3H)表明,南极磷虾中的基因结构是可识别的,特别是在SG和Pb-RS之间 STRUCTURE 45和NGSADMIX46的人口结构分析也揭示了四个地理群体祖先成分的不同比例(图S3I–S3P). 这一结果也得到了置换检验的支持,即个体内随机抽取的FST值显著低于不同地理群体间的FST值(置换检验,P<0.05)(表S4) 这种分化模式主要依赖于少量的SNP。 当FST>0.1的异常SNP时被删除,(0 36%的SNPs),来自四个地理群体的个体是混合的43(数字S3Q–S3T). 总体而言,这些结果表明,可检测到的较小地理结构是由于一小部分分化的SNP,这反映了我们非常大的SNP数据集的力量.
在一个大的群体中,遗传漂变是有限的,这减缓了中性标记的分化。 然而,自然选择在修复有益突变方面更有效,即使选择很弱47,48。我们研究了四个地理位置的SNPs与十个环境变量之间的关联,作为潜在环境选择的指标49(图S4A;表S4) 隔离-距离(IBD)检验不显著(图S4B),但隔离-环境(IBE UNK6分析显示,遗传分化与环境距离UNK7偏Mantel检验显著相关,P=0.04,R=0.84双侧)(图4D)。此外,我们使用潜在因子混合模型50(图S4C)检测了387个潜在的适应性SNPs,这些SNPs分散在与环境变量相关的基因组中。 这387个适应性SNPs在四个组中的等位基因频率揭示了SG SSI和Pb-RS组之间的不同遗传模式(图4E和S4D)。 我们的研究结果表明,环境选择可能在驱动南极磷虾不同类群的基因结构中发挥重要作用。
为了揭示南极磷虾的种群历史,我们使用成对顺序马尔可夫合并(PSMC)方法51和PopSizeABC 52推断来估计过去的有效种群大小(NE)。 我们发现NE从大约10Mya急剧减少(图4F和S4E–S4L),与更新世期间冰期-间冰期变化的广泛幅度和南大洋温度的整体下降相吻合53,54。人口规模的总体峰值约为10 Mya,这与稳定的南极冰盖的形成时间和持续的南极绕极洋流(ACC)的存在有关(图4F)55。我们还观察到南极磷虾群从10万多年前开始的后续扩张,这与晚更新世时期较冷的气候和更大面积的有益海冰栖息地有关(图4F)56。 上一个冰河时期较冷的气候扩大了南极冰盖,这将为磷虾提供更大的栖息地和生态释放56。 这一人口瓶颈和随后的扩张是由过量的稀有等位基因(田岛的D支持的,范围从1.35比1.31)(表S4) 这些来自基因组数据的推论与历史上和最近的温度变化相对应57. 然而,温度对南极磷虾的长期影响是复杂的,因为该物种不断进化,生活在不同的条件下,生态环境也随着时间的推移而变化。 快速的气候变化对南极磷虾的影响很难预测。 南极磷虾是重要的南大洋食物网的关键物种,但海洋温度和初级生产的变化如何影响其栖息地质量仍知之甚少。 磷虾的栖息地可能会转移到这些地区的高纬度地区,但气候变化将如何影响磷虾种群规模,以及依赖磷虾生存的南极生态系统,是迫切需要解决的关键问题58.
讨论
南极磷虾是南大洋食物网中的一个关键环节,由于其巨大的生物量,影响着生态系统的功能。 在这里,我们展示了南极磷虾基因组,这是迄今为止最大的动物集合。 唯一大小相当的动物基因组是最近释放的稍小的墨西哥美西蝾螈、澳大利亚肺鱼和非洲肺鱼15–18。尽管具有巨大基因组的动物通常具有高比例的重复序列,但它们的扩展显示出不同的模式,南极磷虾以DNA转座子为主,尤其是DNA/CMC-EnSpm,而肺鱼则以LINE和LTR为主,墨西哥蝾螈则以LTR为主。 此外,我们在最近的两次爆发中发现了TES的古老积累,并且最近的一次事件接近于磷虾的出现时间,这可能部分解释了磷虾属大基因组的原因。 12,25。大的基因组大小在极地甲壳类动物中似乎很常见12。因此,我们证明了南极磷虾组合将为测序工作提供激励,可以回答为什么以及如何巨大的基因组大小。
在极地甲壳类动物中是典型的昼夜节律是由分子钟基因控制的,这些基因协同产生其丰度和活性的周期性变化,以响应环境线索59。 就南大洋的日长而言,极端的海洋季节变化可能从根本上改变昼夜节律系统。 在这里,我们连接了南极磷虾Circa Dian Clock的双反馈回路系统,这是昼夜节律振荡的基本遗传结构 将昼夜节律成分与其他生物(哺乳动物和果蝇)进行比较,我们发现昼夜节律系统的主要框架没有发生变化,但反馈通路的基因表达(CRY1、CLK、Nemo和PDP1)可能表现出不同的表达模式 显然,需要更多的研究来揭示这些基因的具体功能作用,这些基因是南极磷虾适应南极环境的主要驱动力。
以前的南极磷虾种群遗传学研究依赖于来自mtDNA10,56的有限数量的标记和低覆盖率限制位点相关的DNA测序的推断11我们的集合和75个个体中数以亿计的SNP极大地扩展了群体遗传学的洞察力 鉴于南极磷虾的庞大种群规模,遗传多样性的全基因组估计相对较低60(表S4)。 大种群中的低遗传多样性,被称为“列万廷悖论”,可能是由于南极磷虾的低突变率61,62(表S4)。 这种低突变率可能是磷虾基因组的低GC含量和/或大种群中选择能力增加的副产品 63我们还发现,有效人口规模(NE)与人口普查规模(NE/NC)之比为53109(STAR方法),这是迄今为止发现的这种差异的最极端的例子之一 64因此,包括相对较小的NE/NC、低突变率和自然选择在内的进化力量的混合可能形成了南极磷虾的低遗传多样性。
我们的研究结果表明,南极磷虾种群基本上是随机交配的,在整个南极大陆的大地理范围内具有高度的连通性。 该物种分布与被认为是世界上最强的洋流(ACC)和南极沿岸流(ACOC)广泛重叠,磷虾在洋流中的运动可能解释了总体遗传同质性65-69(图4A)。 我们的数据集的巨大统计能力确实检测到了极低水平的遗传分化。 我们的分析表明,这种非常微妙的信号依赖于少数受选择影响的基因座。 来自SG的磷虾是我们分析的唯一一个位于南极分叉点以北的磷虾种群,它们的遗传分化程度最高,这可能是由于在这个独特的环境中,选择性力量作用于基因组的几个部分 一般来说,在由大量个体组成的群体中,正如我们在南极磷虾中看到的那样,遗传漂变对SNP频率的影响非常有限,这使得具有较小选择优势的基因座得以建立 70.这也表明,这些地理群体之间基因频率的变化很可能是与当地适应有关的自然选择的结果。 确认中性标记的任何弱地理结构将需要更广泛的采样和理想的时间序列磷虾收集,以评估时间稳定性 71我们的研究结果表明,特定区域的渔业保护措施可能仍然需要维持磷虾的功能遗传多样性。
这项研究的主要技术亮点是组装了迄今测序的最大动物基因组。基因组中超丰富的TR DNA加剧了这一技术挑战,这成为我们工作的主要生物学发现之一。 我们仔细分析了导致巨大基因组大小的重复序列,这提供了由重复元件活性引起的基因组大小扩展的最好例子之一。 组装的基因组使我们能够全面分析整个基因组中与光周期性有关的基因。 对南极高度变化的光照条件的生理反应是磷虾生物学的核心,我们产生的基因组资源大大改善了对这种适应性的详细研究。 最后,全基因组SNPs被用于解决南极磷虾种群遗传分化这一长期存在的问题 种群结构非常有限,中性SNPs没有显示出主要的遗传分化,但有一些证据表明,局部条件可能对基因组中的SNPs的子集具有选择性影响。 总之,磷虾基因组和详细的种群遗传分析无疑将有助于未来对这一关键南极物种管理的相关研究。 研究的局限性由于南极磷虾的基因组大小和TR丰度较大,基因组组装的连续性不如肺鱼和墨西哥蝾螈的脊椎动物基因组长。 此外,在时间序列上对磷虾进行更广泛的采样和理想的收集,以评估种群动态和自然选择推断的时间稳定性和可靠性,将是有价值的。
Changwei Shao,1,2,27,28,* Shuai Sun,3,4,5,27 Kaiqiang Liu,1,2,27 Jiahao Wang,3,27 Shuo Li,1,2,27 Qun Liu,3,6,27 Bruce E. Deagle,7,8 Inge Seim,9 Alberto Biscontin,10 Qian Wang,1,2 Xin Liu,4,11,12,13 So Kawaguchi,8 Yalin Liu, Simon Jarman,14 Yue Wang,4,15 Hong-Yan Wang,1,2 Guodong Huang,4 Jiang Hu,16 Bo Feng,1,2 Cristiano De Pitta` ,10 Shanshan Liu,3 Rui Wang,1,2 Kailong Ma,4,17 Yiping Ying,18 Gabrielle Sales,10 Tao Sun,3 Xinliang Wang,18 Yaolei Zhang,