分析内容如下图所示:
具体分析步骤如下:
- 数据质控,使用 kneaddata 软件, 该软件先调用 Trimmomatic 过滤数据,然后利用 bowtie2 或 bmtagger 比对宿主数据库去除宿主数据 (也可以去除核糖体数据)。
- 基因组组装,推荐使用 megahit 和 metaspades 软件按照样本进行宏基因组组装,第一个软件快,第二个软件组装质量更好,但是更加耗时。
- 基因预测,使用metagenemark软件直接从组装好的 contig 或者 scafford 预测基因,并使用cd-hit构建非冗余基因集。
- 基因功能预测,针对非冗余基因集,利用blast等软件比对 NR, COG, GO, KEGG, CAZY, ARDB 等数据库注释基因的功能。
- 基因丰度分析,有两种方案,第一种非比对方案,使用 Salmon 软件;第二种比对方案,bwa或其他比对软件比对,bedtools丰度统计。
- 功能丰度分析,结合基因丰度和基因功能注释进行功能分析;也可以使用 HUMAnN2 软件基于 reads 直接进行功能组成定量。
- 物种丰度分析,使用软件 MetaPhlAn2 或 Kraken2 实现序列的物种分类。
- 差异统计分析,得到物种/基因/功能表后利用R语言或者STAMP等软件在物种,基因,功能等三个层面进行差异分析。