iScience：特殊生境细菌染色体水平基因组组装策略的比较

2021年3月，青岛华大基因研究院和南京工业大学共同在《iScience》上发表研究成果《Comparison of different sequencing strategies for assembling chromosome-level genomes of extremophiles with variable GC content》，研究团队针对GC含量不同的极端环境下细菌，对每个菌株提取的DNA 进行了 Illumina 或 DNBSEQ 短读长测序 (NGS)、stLFR长读长测序和ONT长读长数据，并对不同策略的基因组组装结果进行了比较。

支持上述研究的测序数据及组装数据已存储于国家基因库生命大数据平台（CNGBdb），项目编号：CNP0001196。

研究背景

根据细菌适应的严酷环境，极端环境下的菌包括嗜热菌、嗜冷菌、嗜碱菌、嗜酸菌、嗜油菌和耐辐射菌等。从极端微生物中克隆出来的生物催化剂对全球生物技术市场产生了巨大影响，然而目前仍然缺乏有效，低成本，高效地从极端微生物中有效挖掘生物信息的技术。尤其在开始大规模细菌全基因组测序（WGS）项目时，选择成本效益最好的测序策略并获得高质量的极端环境微生物基因组序列及功能仍然是一个挑战。

单管长片段测序（stLFR）技术是一种新颖的全基因组测序文库制备方法，可以使用短读长NGS平台为基因组从头组装生成高度准确且经济的长读长测序信息，实现高质量的全基因组组装。在本研究中，首次使用 stLFR 技术解决了复杂的极端微生物基因组的测序组装。研究团队选择了从中国新疆维吾尔自治区分离出的5株GC含量从30％到70％不等的耐辐射极端微生物（Bacillus cereus43-1A,Brevibacterium frigoritolerans44A,Rufibacter sp.LB8,Deinococcus wulumuqiensisR12,Janibacter melonisM714）以及参考菌株Escherichia coliK-12，对每个菌株提取的DNA 进行了 Illumina 或 DNBSEQ 短读长测序 (NGS)、stLFR长读长测序和ONT长读长数据，并对不同策略的基因组组装结果进行了比较。研究结果评估和优化了stLFR 技术在不同GC含量的极端微生物基因组组装结果的准确性，并与二代短读长测序组装结果和三代测序组装结果进行比较，为快速、经济和准确地完全解析极端环境微生物基因组研究建立了新的方法、策略。

研究成果

1. 使用stLFR测序数据组装获得染色体水平的细菌基因组

为确定构建高GC细菌stLFR文库的最佳条件，研究人员采用了5种不同转座酶浓度（0.4 - 1.2 pmol / 10 ng DNA）对菌株R12进行了文库构建，发现不同转座酶浓度构建的文库其分子长度和组装基因组大小相似，但是 Scaffold N50值存在较大差异，转座酶浓度 0.4 pmol / 10 ng DNA的组装基因组Scaffold N50为2.9 Mb，占基因组长度的80％，显著高于其它转座酶浓度文库组装结果（Scaffold N50 ~156-402 kb）。

为确定细菌stLFR数据的最优组装方法，研究人员使用了SPAdes、cloudSPAdes、Athena、Architect和Supernova对每个细菌的stLFR数据进行了组装，并使用SLR-scaffolder进行super-scaffolds连接，发现Supernova的结果的Scaffold N50高于其它方法，并且Scaffold N50的长度与最长的Scaffold长度一致，占组装结果总长度的95％以上，表明其是染色体水平的Scaffold。其次组装较好的是Athena和cloudSPAdes的组装结果（图1）。此外，对于R. sp.LB8、D. wulumuqiensisR12 和J. melonisM714染色体水平的Scaffold，使用 ONT测序数据对其进行补洞并获得完整的基因组，获得染色体完成图和质粒，达到了与Unicycler组装结果一致的基因组大小、完整性和准确性。

图1

2. 不同测策略不同组装方法的基因组组装结果的比较

研究人员对3种测序数据5个组装策略的组装结果进行了比较，包括二代NGS组装的草图基因组、stLFR组装的染色体水平基因组、stLFR组装结果经过ONT补洞后的完成图（stLFR+ONT）、二代NGS和三代ONT测序数据Unicylcer混合组装的完成图（Unicylcer）和ONT数据Canu组装后纠错的完成图（Canu）。对于所有组装结果，基因组长度均与K-mer预估结果一致，并且CheckM对基因组的完整性评估也非常接近（~99％），这表明长片段测序策略（包括stLFR, ONT 和 PacBio）的组装结果是合理、准确的。

此外，研究人员比较了菌株E. coliK-12,R. sp.LB8,D. wulumuqiensisR12 和J. melonisM714的各个策略组装结果的结构准确性。stLFR、stLFR+ONT和Unicycler的组装结果之间的单碱基准确率和结构准确率没有显著差异，但高于NGS和Canu的组装结果。且stLFR、stLFR+ONT、Canu和Unicycler的组装结果共线性分析未发现任何异常结构错误或大片段插入缺失。使用QUAST将NGS、stLFR、stLFR+ONT和Canu组装的基因组与Unicycler组装的基因组进行比较，与Unicycler组装结果相比，stLFR和stLFR+ONT的组装结果比NGS组装结果显示出更高的一致性和更少的组装错误（图2a）。对于高GC含量的菌株R12和M714，Canu的组装结果具有较高的一致性，但与stLFR组装结果和stLFR+ONT组装结果相比，其包含更多的错误组装区域（图2a）。在所有菌株中，stLFR和stLFR+ONT的组装结果完整度（Genome fraction）均高于NGS组装（图2b）；除了菌株D. wulumuqiensisR12，stLFR、stLFR+ONT的组装结果和NGS组装结果出现的SNP、Indel比例相似（图2b）。菌株R. sp. LB8,D. wulumuqiensisR12 和J. melonisM714 的Canu组装结果完整度较高，但stLFR组装结果和stLFR+ONT组装结果的SNP、Indel较低（图2b）。

图2

研究结论

在这项研究中，研究团队使用了三种不同的测序策略，包括二代测序（NGS）、单管长片段测序（stLFR）技术和三代测序（Nanopore或PacBio）对五个GC含量从35％到72％不等的耐极端辐射的细菌和大肠杆菌K-12进行构建文库、测序和基因组组装。在这三种测序策略中，stLFR的成本约为NGS的两倍，不到Nanopore的1/3和PacBio测序成本的1/4。将Illumina或MGI的短读测序（NGS）数据与三代测序技术（包括Nanopore和PacBio）结合使用，以获得细菌的完成图基因组，但测序成本较sLFR组装的染色体水平基因组高。此外，stLFR所需的计算资源与NGS所需的计算资源相当，远低于三代测序所需的计算资源；且stLFR仅需要1-10 ng的高质量DNA，远低于Nanopore或PacBio测序所需的1,500 ng，也低于NGS所需的200 ng。

研究团队研究了高GC含量的细菌的最佳stLFR文库构建条件，发现低转座酶浓度测序数据的组装结果较高。与之前动植物基因组学的stLFR研究不同，本次研究使用了包含样品barcode信息的转座子酶，可允许对大量微生物样品进行合并建库和测序。研究发现，使用2-4 Gb的Cleandata的组装结果最好，其中软件Supernova和Athena更适合于微生物stLFR测序数据的组装。

对3种测序数据5个组装策略得到的基因组进行评估，发现可以使用stLFR测序数据组装获得细菌染色体水平的基因组，具有与三代测序的组装结果相同的结构和功能准确性。与NGS组装结果相比，stLFR组装结果具有更高的完整性和更少的组装错误。此外，研究团队还使用stLFR数据组装了完整的质粒基因组，之前这一般使用三代测序才能获得。同时，使用ONT测序数据对stLFR组装结果进行补洞并获得了完整的基因组。与二代和ONT结合的Unicycler组装完成图相比，改组装策略使用了较少的计算资源获得了高精度的完整的基因组。

本研究中，对于细菌基因组优化了stLFR文库的构建和测序的方法，并构建了一个stLFR组装流程以获得染色体水平的细菌基因组。结果表明，使用stLFR测序数据组装高质量的细菌基因组是一种经济高效的选择，尤其是对于那些难培养或难提取获得大量DNA的细菌。并且基于stLFR组装结果，可以进一步使用三代测序数据进行补洞获得重要的细菌基因组完整图。

该工作得到了国家自然科学基金优秀青年基金和江苏省自然科学基金杰出青年基金的资助。

首发公号：国家基因库大数据平台

参考文献

Zhang Z, Liu G, Chen Y, et al. Comparison of different sequencing strategies for assembling chromosome-level genomes of extremophiles with variable GC content[J]. Iscience, 2021, 24(3): 102219.

图片源于ScienceDirect官网和参考文献，如有侵权请联系删除。

▍本文转载自公众号“生化江湖”（ID：BioChemWorld），禁止二次转载

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

iScience：特殊生境细菌染色体水平基因组组装策略的比较

研究背景

研究成果

研究结论

推荐阅读更多精彩内容