摘要
人类微生物组由以细菌为主的微生物群的集体基因组组成,这些微生物生活在人体的各个部位,其中肠道包含更多的微生物群。由于缺乏用于分离非培养微生物的科学工具,肠道微生物组的最重要特性尚不清楚。随着分子测序工具和技术的迅速发展,肠道微生物组在人类微生物组的研究过程中取得了长足的进步。这些发现揭示了在重组和改革疾病病理与药物方面有着非凡未来的可能性。新的科学方法,如通过二代测序的宏基因组工具,为基于肠道微生物组的新型疗法铺平了道路。在这里,本文概述了肠道菌群的生活方式及其在人类健康中的作用,并详细阐述了肠道宏基因组实验工具及其研究设计。
前言
肠道微生物非常丰富
地球上存在的微生物数量十分庞大,远远超过了宏观生物的数量。人类微生物群本身包含约1013到1014个微生物细胞。肠道中的微生物群是最多的,每克湿重大约有1011个细菌,主要包括厚壁菌门、拟杆菌门和放线菌门。然而,众所周知,肠道菌群在调节宿主生理和代谢功能方面发挥着重要作用。
从显微镜到基因显微镜
微生物研究已经从显微镜观察转向分子研究。宏基因组学等高通量研究为微生物学领域的发展提供了新的知识,并为了解人类微生物组的结构和功能提供了新的思路。然而,肠道是人体中微生物定居密度最高的生态系统,与宿主保持着有益的相互作用。尽管肠道菌群在宿主免疫系统和宿主发育中的重要性和影响是公认的,但其复杂性是独特和新颖的。
通过形成生物膜在肠道中建立微生物群
微生物群以生物膜的形式存在于肠道黏膜上。包裹在聚合物外膜中的细菌群落被称为生物膜。然而,肠道细菌可能会附着于结肠的黏液,利用宿主黏液作为基质,并建立生物膜。生物膜微生物群可以转变为肠腔内的游离浮游细菌。通过形成生物膜在肠黏膜上定居的微生物群表现出定植抗性,即阻止病原体的定植。细菌的定植抗性是通过菌群排斥、调节pH值、产生抗生素或抑制病原菌的毒力等机制实现的。它帮助肠道生物膜保持水分,抵御抗生素和其他不利条件,并有助于基因的水平转移。肠道菌群利用丝氨酸富集重复蛋白等表面黏附素来形成生物膜,有助于肠道内生态位的选择。编码运动、菌毛、基质和黏附蛋白的基因是生物膜形成的重要组成部分。
****肠道宏基因组学实验工具****
实验/研究设计一个好的实验或研究设计有助于减少在宏基因组研究中常见的错误和不一致的结果。总的来说,任何生物学问题都应首先通过试点/小规模研究和仔细的文献调查来进行深入探索,这是避免歧义的必要条件。简化宏基因组研究包括样本数量、病例对照、随机对照试验(RCT)、横断面和纵向样本、元数据等,这些都有助于科学界推进大数据处理,并消除混杂效应。值得注意的是,在临床试验中获得合适的对照样本非常具有挑战性,因为微生物负荷在很大程度上受到性别、年龄、地理位置、种族、饮食和生活方式的影响。此外,微生物组研究可能受到核酸提取试剂盒、采样方法、污染和测序方法等实验因素的影响,通过计数阳性和阴性对照样本可以减轻这些影响。然而,一个良好的研究应该设计适当的控制和记录尽可能多的元数据特征,这将有助于避免对结果的错误解释,并突出单个因素的实际影响。此外,一项横断面宏基因组研究整合了两组之间的比较,例如健康组与疾病组和/或安慰剂组与治疗组(图1)。众所周知,影响微生物群的环境因素可能会导致各种相加或相乘效应。因此,设计纵向研究时应满足统计学观点,即在不同时间点收集的相同样本有助于避免实验偏倚。
图1.研究人类肠道宏基因组学的实验设计和测序方法示意图。
样品类型、收集、处理和分析
微生物群落分析的样本类型选择将受到基础研究问题的驱动。例如,大多数人类肠道宏基因组研究都集中在粪便样本上,这些样本的收集步骤简单,可用于纵向研究的分析。另外,活检样本更有利于了解宿主-微生物群的相互作用。因此,收集样本的位置和数量对于最终结果至关重要。此外,在收集和处理样本过程中还应考虑污染、运输、储存和安全等后续参数。样本保存和储存应根据样本类型和研究设计而定。建议在采集后15分钟内将样本冷冻并储存在-20℃下,然后在24小时内用干冰运输到实验室,并存储在-80℃下,直到进一步处理。核酸(DNA/RNA)提取方法的选择对于任何微生物群落的宏基因组大数据分析的质量和完整性非常重要。应采用有效的方法从所有类型的微生物中提取DNA。特别是革兰氏阳性菌和芽孢形成菌,由于其肽聚糖层和孢子外壳较厚,因而变得僵化且易于破裂。为了打破细胞壁,将采用两种主要的提取方法:(1)珠磨/机械破裂和(2)化学裂解。
二代测序技术靶向扩增子微生物测序包括细菌16S rDNA和真菌18S rDNA/ITS基因的核糖体小亚基作为系统发育标记来研究微生物群落(图1)。这些方法有助于科学界监测微生物群的时空动态,而不需要生成其他序列数据。鸟枪法宏基因组学研究的目标是提取DNA的深层和完整序列,这提供了所选样本的多样性和功能特性。微生物组和宏基因组研究使用了几种测序平台,包括Sanger法(毛细管电泳)、罗氏454、基因组测序GS、FLX和FLX Titanium(焦磷酸测序)、Illumina GAIIx和HiSeq 2000,以及Nanopore(牛津纳米孔)。如表1所示,每个测序平台都是根据微生物群动态及其功能特性的需要进行选择的。大多数的微生物群动态研究都使用了Illumina平台。
表1.微生物测序平台比较。
****肠道宏基因组生物信息学工具****
原始读取的预处理预处理是宏基因组测序分析的一个关键前提步骤,涉及到质量修剪和污染去除。用于质量修剪的计算工具可检测并高效删除原始读取中的以下序列细节,包括低质量、适配体和与宿主相关的序列污染。一般而言,会在这个质量修剪步骤中删除怀疑存在高度错误的序列。用于识别真实DNA片段并去除测序伪影响的参数包括平均质量分数、同源多聚体长度、引物不匹配数量和已测试序列的长度。使用FASTQC工具来检查原始读取的质量,其中包括序列分布、引物二聚体、GC含量和适配体序列的存在。为了从原始文件中修剪低质量的读取和适配体序列,自2012年以来就开发并使用了sickle、cutadapt和AdapterRemoval工具。此外,为了提高原始读取的质量,研究者们开发了各种算法和工具,包括Trimmomatic、seqtk、ea-utils、FASTX-toolkit、BBTools、Knead-data等。Knead-data工具集成了Trimmomatic用于去除低质量读取,bowtie2和Burrows-Wheeler Aligner(BWA)用于映射和去除宿主污染。一般来说,建议使用大于25的良好质量分数进行读取修剪。对于扩增子文库,建议使用定义的质量分数沿5'端进行修剪。对于鸟枪文库,在进行质量修剪之前,强烈建议先通过bowtie2或BWA去除宿主污染。在获得经过质量检查的DNA序列后,必须按顺序进行分析和解释。庞大的序列数据需要复杂的生物信息学分析工具;在这里,本文区分了靶向扩增子和鸟枪法宏基因组数据的计算分析,如图2所示。
图2.用于研究人类肠道宏基因组学的生物信息学工具示意图。
扩增子分析
靶向扩增子序列分析中一个值得关注的问题是区分真实序列和读取错误序列。为了克服这些困难,主要使用了以下工具。首先,开发并使用了QIIME、Mothur和VAMPS工具,通过预定义的相似性阈值聚类进行读取(97%相似性-操作分类单元(OUT))。这些工具允许研究人员使用大量的DNA序列数据来比较和分析微生物群动态。另外,QIIME2、DADA2、Deblur、MED和UNOISE工具在扩增和测序之前进行生物序列去噪处理,并提供扩增子序列变体(ASV)。所有上述工具都可以作为Galaxy和Qiita的图形用户界面(GUI)和命令行界面(CLI)使用。
选择具有代表性的序列是扩增子分析的关键步骤。操作分类单元(OUT)是在21世纪初开发的,基于该方法的早期工具有DOTUR和SONS。随着时间的推移,人们开发了许多算法来研究各种微生物群落。最流行的OTU聚类算法基于贪婪启发式方法。与OTU方法相比,该方法的主要优点是在大于97%相似性的聚类过程所需的计算力较小,缺点是聚类是基于97%或99%,因此该方法识别出的生物变异较小,分类识别的种类少。为了克服这个问题,2013年引入了另一种方法,称为“寡核苷酸分型(Oligotyping)”,可以识别一个核苷酸变化的序列。此后,它被开发并重命名为扩增子序列变体(ASV)或精确序列变体(ESV),并取代了基于OTU的方法。ASV方法能够在单核苷酸水平上区分序列。基于该算法的常用工具有DADA2、Deblur和qiime2等。无论采用哪种方法,最终的输出都将是一个特征表或丰度表,其中包含特定样本的特征序列频率。这个特征表可以进一步与分类联系起来,以发现从界到物种水平的丰度。
扩增子分析从去除嵌合体和预处理后的解复用开始。解复用是将读取的数据根据条形码分组的步骤。表2给出了用于序列解复用的各种函数/脚本。
表2.预处理脚本列表。
嵌合体是在聚合酶链反应(PCR)过程中获得的不匹配和不需要的序列,通常发生在使用混合模板时。因此,在注释过程之前需要删除嵌合体序列,否则它们可能显示出错误的多样性或错误地识别为特定环境中原本不存在的分类单元。为此,大多数流程和工具都已加入了用于检测和去除嵌合体读取的自有脚本(表3)。
表3.用于删除嵌合体读取的脚本列表。
通常,扩增子序列被用于检测微生物的多样性和组成。然而,也有许多工具被开发并用于功能预测。PiCrust就是其一,它基于greengenes数据库的OTU表开发,可以通过KEGG通路预测功能组成。新开发和改进的版本Picrust2具有类似的背景,但可以使用ASV和OTU表。Tax4Fun是一个R包,可以通过KEGG和SILVA数据库预测功能通路。
鸟枪法分析
与基于扩增子的序列分析相比,鸟枪法宏基因组分析可以提供更多的功能信息和更深入的分类学解析度。然而,由于数据集庞大,分析需要较高的计算能力,并且大多数工具是在Linux/Mac操作系统环境下实现的。在预处理之后,鸟枪法分析的重要步骤是使用基于读取或组装的方法生成分类和功能表。在基于读取的方法中,主要采用MetaPhLan工具(基于分支特异性标记基因)进行分类注释。在Galaxy的CLI和GUI中都可以使用MetaPhLan。用户可以构建自定义的分类数据库,并使用DIAMOND、Bowtie2、BWA、Blast+和kASA等比对工具。此外,还可以使用基于min hash方法的工具(如Metalign)和基于k-mer方法的工具(如MetaCache)进行注释。
组装
组装是将读取序列拼接成更长片段的过程。值得注意的是,这些算法最初是为全基因组组装而开发的,但后来得到了更广泛的应用。组装算法的选择对于进一步分析至关重要。典型的宏基因组序列组装常用算法包括Velvet、IDBA-UD、MegaHIT、METASpades、RayMETA、MetaVelvet、SOAPDenovo2和Omega。所有这些宏基因组组装算法都是基于De Bruijn图(开源软件)。组装读取后,会进行归类(binning),将组装好的contigs分配到微生物基因组的单个组。有两种归类方法,一种是基于分类的binning,使用Bowtie2、BWA、Blast+和kASA等比对工具将组装的contigs与参考数据库进行比对。另一种是基于机器学习方法的基因组binning,无需参考数据库进行比对。从DNA序列到微生物物种多样性分析,主要基于属/种或OTU的生态指标。这些可以通过使用外部信息(denovo OUT或基于参考的OTU选择方法(greengenes或SILVA))对序列进行聚类来实现。
基因组分类有三种方法,即基于序列、基于差异丰度和混合方法。目前使用的分类工具,如MaxBin2、GroopM和Metabat2,都是基于混合方法。在进行分类注释之前,使用CheckM检查分类文件,该工具使用标记数据库评估文件。之后,可以使用各种分类注释工具,如prokka、Kraken和Kraken2(基于k-mer和LCA算法)、CAT和BAT(也基于LCA)以及Prodigal。MEGAN是一种图形用户界面,可用于对读取进行分类和功能注释。功能注释是将干净的原始读取与数据库(KEGG和Metacyc等)进行匹配的过程。可以使用Humann3工具进行注释。此外,如果进行了新的测序,也可以执行prokka。
多样性测量
多样性测量是下游分析之一,它可以提供样本的多样性程度,被细分为alpha多样性和beta多样性。alpha多样性定义为样本内的多样性,取决于物种的丰富度和均匀度。丰富度定义为样本中存在的物种总数。最简单的指数是Observed,其他指数如ACE和Chao1,也可用于测量丰富度。均匀度主要是指物种的丰度。Shannon和Pielou等指数可用于测量均匀度。当测量方法取决于物种之间的系统发育关系时,也可采用基于系统发育的alpha多样性。Faith PD是基于系统发育的alpha多样性的最佳示例,它连接了样本中所有可用物种的分支长度之和。
另一个可用的多样性指标是beta多样性,它提供了样本之间的差异。最常用的多样性指数包括Bray-Curtis相异度、Jaccard指数、Aitchison距离和Unifrac距离。无论使用哪种beta多样性指数,最终输出的都是距离矩阵表,需要在排序图中进行可视化。排序用于降低数据集的维度,从而进一步用于可视化。最常用的可视化方法包括主成分分析(PCA)、度量多维尺度(MDS)、非度量多维尺度(NDMS)和主坐标分析(PCoA)。最近开发的排序图t-SNE和UMAP也可用于微生物组分析。对于扩增子文库,qiime2具有专属alpha和beta多样性分析工具。此外,还可以使用“qiime2R”包将qiime2文件导入到R中,并使用“vegan”、“phyloseq”和“microbiome”等软件包生成距离矩阵和排序图。对于基于参考序列的鸟枪法文库,已经生成并发布了各种自制的R脚本/Python模块,用于导入数据并生成多样性指数。用于多样性分析的常用R包有“phyloseq”、“vegan”、“microbiome”和“mia”。
参考文献:
Sreevatshan, K.S., Nair, V.G., Srinandan, C.S., Malli Mohan, G.B. (2022). Tools to Study Gut Microbiome. https://doi.org/10.1007/978-981-19-4530-4_15
更多资讯请关注茗创科技