导读
从本篇开始,我将介绍宏基因组分箱的生物信息分析方法。若想了解更多宏基因组分箱的知识请阅读:1. 宏基因组分箱(Binning)技术;2. 宏基因组组装工具比较;3. 宏基因组最佳分箱工具Metabat2。本篇将介绍Megahit组装宏基因组测序序列的操作方法。
一、准备工作
Megahit
用途:序列组装
地址:https://github.com/voutcn/megahit
QUAST
用途:组装评估
地址:http://quast.sourceforge.net/
原始数据
下载:
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011347/ERR011347_1.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011347/ERR011347_2.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011348/ERR011348_1.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011348/ERR011348_2.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011349/ERR011349_1.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011349/ERR011349_2.fastq.gz
处理:
下载、解压、质控后,将3个样品的上下游序列分别合并成ALL_READS_1.fastq和ALL_READS_2.fastq
二、Megahit组装
双端组装:
mkdir raw_merge
mv ALL_READS_[12].fastq raw_merge
ll -alh raw_merge/
-rw-rw-r-- 1 cheng WST 4.5G 9月 25 16:21 ALL_READS_1.fastq
-rw-rw-r-- 1 cheng WST 4.7G 9月 25 16:22 ALL_READS_2.fastq
time megahit \
-1 raw_merge/ALL_READS_1.fastq \
-2 raw_merge/ALL_READS_2.fastq \
-o assembly_megahit \
-t 16
# 耗时15分钟
ll -alh assembly_megahit/
-rw-rw-r-- 1 cheng WST 87M 9月 26 09:53 final.contigs.fa
结果文件final.contigs.fa中包含所有contig的长度、序列等关键信息
单端组装:
可用gz文件
mkdir tmp
megahit \
-r SRR341593_bowtie2.1.fastq \
--tmp-dir tmp --out-dir out_megahit -t 20
三、QUAST评估
time quast assembly_megahit/final.contigs.fa -o assembly_quality/final.contigs -t 16
# 耗时10秒
ll -alh assembly_quality/final.contigs/
drwxrwxr-x 2 cheng WST 4096 9月 26 10:18 basic_stats/
-rw-rw-r-- 1 cheng WST 53358 9月 26 10:18 icarus.html
drwxrwxr-x 2 cheng WST 4096 9月 26 10:18 icarus_viewers/
-rw-rw-r-- 1 cheng WST 2853 9月 26 10:18 quast.log
-rw-rw-r-- 1 cheng WST 509637 9月 26 10:18 report.html
-rw-rw-r-- 1 cheng WST 29022 9月 26 10:18 report.pdf
-rw-rw-r-- 1 cheng WST 1207 9月 26 10:18 report.tex
-rw-rw-r-- 1 cheng WST 527 9月 26 10:18 report.tsv
-rw-rw-r-- 1 cheng WST 1083 9月 26 10:18 report.txt
-rw-rw-r-- 1 cheng WST 1048 9月 26 10:18 transposed_report.tex
-rw-rw-r-- 1 cheng WST 527 9月 26 10:18 transposed_report.tsv
-rw-rw-r-- 1 cheng WST 985 9月 26 10:18 transposed_report.txt
QUAST评估结果包含contig总数量、每个长度段的contig数量、最大contig长度、contig总长度、N50、GC含量等信息。QUAST分析得到了一大堆结果文件,report.html中有关键信息。打开report.html网页文件,结果如下:
可视化统计结果如下:
结束语
本篇宏基因组Megahit组装宏基因组序列的操作方法介绍完了,下期将介绍Metabat2分箱的操作方法。