2021年3月,青岛华大基因研究院和南京工业大学共同在《iScience》上发表研究成果《Comparison of different sequencing strategies for assembling chromosome-level genomes of extremophiles with variable GC content》,研究团队针对GC含量不同的极端环境下细菌,对每个菌株提取的DNA 进行了 Illumina 或 DNBSEQ 短读长测序 (NGS)、stLFR长读长测序和ONT长读长数据,并对不同策略的基因组组装结果进行了比较。
支持上述研究的测序数据及组装数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号:CNP0001196。
研究背景
根据细菌适应的严酷环境,极端环境下的菌包括嗜热菌、嗜冷菌、嗜碱菌、嗜酸菌、嗜油菌和耐辐射菌等。从极端微生物中克隆出来的生物催化剂对全球生物技术市场产生了巨大影响,然而目前仍然缺乏有效,低成本,高效地从极端微生物中有效挖掘生物信息的技术。尤其在开始大规模细菌全基因组测序(WGS)项目时,选择成本效益最好的测序策略并获得高质量的极端环境微生物基因组序列及功能仍然是一个挑战。
单管长片段测序(stLFR)技术是一种新颖的全基因组测序文库制备方法,可以使用短读长NGS平台为基因组从头组装生成高度准确且经济的长读长测序信息,实现高质量的全基因组组装。在本研究中,首次使用 stLFR 技术解决了复杂的极端微生物基因组的测序组装。研究团队选择了从中国新疆维吾尔自治区分离出的5株GC含量从30%到70%不等的耐辐射极端微生物(Bacillus cereus43-1A,Brevibacterium frigoritolerans44A,Rufibacter sp.LB8,Deinococcus wulumuqiensisR12,Janibacter melonisM714)以及参考菌株Escherichia coliK-12,对每个菌株提取的DNA 进行了 Illumina 或 DNBSEQ 短读长测序 (NGS)、stLFR长读长测序和ONT长读长数据,并对不同策略的基因组组装结果进行了比较。研究结果评估和优化了stLFR 技术在不同GC含量的极端微生物基因组组装结果的准确性,并与二代短读长测序组装结果和三代测序组装结果进行比较,为快速、经济和准确地完全解析极端环境微生物基因组研究建立了新的方法、策略。
研究成果
1. 使用stLFR测序数据组装获得染色体水平的细菌基因组
为确定构建高GC细菌stLFR文库的最佳条件,研究人员采用了5种不同转座酶浓度(0.4 - 1.2 pmol / 10 ng DNA)对菌株R12进行了文库构建,发现不同转座酶浓度构建的文库其分子长度和组装基因组大小相似,但是 Scaffold N50值存在较大差异,转座酶浓度 0.4 pmol / 10 ng DNA的组装基因组Scaffold N50为2.9 Mb,占基因组长度的80%,显著高于其它转座酶浓度文库组装结果(Scaffold N50 ~156-402 kb)。
为确定细菌stLFR数据的最优组装方法,研究人员使用了SPAdes、cloudSPAdes、Athena、Architect和Supernova对每个细菌的stLFR数据进行了组装,并使用SLR-scaffolder进行super-scaffolds连接,发现Supernova的结果的Scaffold N50高于其它方法,并且Scaffold N50的长度与最长的Scaffold长度一致,占组装结果总长度的95%以上,表明其是染色体水平的Scaffold。其次组装较好的是Athena和cloudSPAdes的组装结果(图1)。此外,对于R. sp.LB8、D. wulumuqiensisR12 和J. melonisM714染色体水平的Scaffold,使用 ONT测序数据对其进行补洞并获得完整的基因组,获得染色体完成图和质粒,达到了与Unicycler组装结果一致的基因组大小、完整性和准确性。
2. 不同测策略不同组装方法的基因组组装结果的比较
研究人员对3种测序数据5个组装策略的组装结果进行了比较,包括二代NGS组装的草图基因组、stLFR组装的染色体水平基因组、stLFR组装结果经过ONT补洞后的完成图(stLFR+ONT)、二代NGS和三代ONT测序数据Unicylcer混合组装的完成图(Unicylcer)和ONT数据Canu组装后纠错的完成图(Canu)。对于所有组装结果,基因组长度均与K-mer预估结果一致,并且CheckM对基因组的完整性评估也非常接近(~99%),这表明长片段测序策略(包括stLFR, ONT 和 PacBio)的组装结果是合理、准确的。
此外,研究人员比较了菌株E. coliK-12,R. sp.LB8,D. wulumuqiensisR12 和J. melonisM714的各个策略组装结果的结构准确性。stLFR、stLFR+ONT和Unicycler的组装结果之间的单碱基准确率和结构准确率没有显著差异,但高于NGS和Canu的组装结果。且stLFR、stLFR+ONT、Canu和Unicycler的组装结果共线性分析未发现任何异常结构错误或大片段插入缺失。使用QUAST将NGS、stLFR、stLFR+ONT和Canu组装的基因组与Unicycler组装的基因组进行比较,与Unicycler组装结果相比,stLFR和stLFR+ONT的组装结果比NGS组装结果显示出更高的一致性和更少的组装错误(图2a)。对于高GC含量的菌株R12和M714,Canu的组装结果具有较高的一致性,但与stLFR组装结果和stLFR+ONT组装结果相比,其包含更多的错误组装区域(图2a)。在所有菌株中,stLFR和stLFR+ONT的组装结果完整度(Genome fraction)均高于NGS组装(图2b);除了菌株D. wulumuqiensisR12,stLFR、stLFR+ONT的组装结果和NGS组装结果出现的SNP、Indel比例相似(图2b)。菌株R. sp. LB8,D. wulumuqiensisR12 和J. melonisM714 的Canu组装结果完整度较高,但stLFR组装结果和stLFR+ONT组装结果的SNP、Indel较低(图2b)。
研究结论
在这项研究中,研究团队使用了三种不同的测序策略,包括二代测序(NGS)、单管长片段测序(stLFR)技术和三代测序(Nanopore或PacBio)对五个GC含量从35%到72%不等的耐极端辐射的细菌和大肠杆菌K-12进行构建文库、测序和基因组组装。在这三种测序策略中,stLFR的成本约为NGS的两倍,不到Nanopore的1/3和PacBio测序成本的1/4。将Illumina或MGI的短读测序(NGS)数据与三代测序技术(包括Nanopore和PacBio)结合使用,以获得细菌的完成图基因组,但测序成本较sLFR组装的染色体水平基因组高。此外,stLFR所需的计算资源与NGS所需的计算资源相当,远低于三代测序所需的计算资源;且stLFR仅需要1-10 ng的高质量DNA,远低于Nanopore或PacBio测序所需的1,500 ng,也低于NGS所需的200 ng。
研究团队研究了高GC含量的细菌的最佳stLFR文库构建条件,发现低转座酶浓度测序数据的组装结果较高。与之前动植物基因组学的stLFR研究不同,本次研究使用了包含样品barcode信息的转座子酶,可允许对大量微生物样品进行合并建库和测序。研究发现,使用2-4 Gb的Cleandata的组装结果最好,其中软件Supernova和Athena更适合于微生物stLFR测序数据的组装。
对3种测序数据5个组装策略得到的基因组进行评估,发现可以使用stLFR测序数据组装获得细菌染色体水平的基因组,具有与三代测序的组装结果相同的结构和功能准确性。与NGS组装结果相比,stLFR组装结果具有更高的完整性和更少的组装错误。此外,研究团队还使用stLFR数据组装了完整的质粒基因组,之前这一般使用三代测序才能获得。同时,使用ONT测序数据对stLFR组装结果进行补洞并获得了完整的基因组。与二代和ONT结合的Unicycler组装完成图相比,改组装策略使用了较少的计算资源获得了高精度的完整的基因组。
本研究中,对于细菌基因组优化了stLFR文库的构建和测序的方法,并构建了一个stLFR组装流程以获得染色体水平的细菌基因组。结果表明,使用stLFR测序数据组装高质量的细菌基因组是一种经济高效的选择,尤其是对于那些难培养或难提取获得大量DNA的细菌。并且基于stLFR组装结果,可以进一步使用三代测序数据进行补洞获得重要的细菌基因组完整图。
该工作得到了国家自然科学基金优秀青年基金和江苏省自然科学基金杰出青年基金的资助。
首发公号:国家基因库大数据平台
参考文献
Zhang Z, Liu G, Chen Y, et al. Comparison of different sequencing strategies for assembling chromosome-level genomes of extremophiles with variable GC content[J]. Iscience, 2021, 24(3): 102219.
图片源于ScienceDirect官网和参考文献,如有侵权请联系删除。
▍本文转载自公众号“生化江湖”(ID:BioChemWorld),禁止二次转载