- 基因组组装一般分为三个层次,contig, scaffold和chromosomes.
contig表示从大规模测序得到的短读(reads)中找到的一致性序列。组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,这一步会得到scaffolds。最后基于遗传图谱或光学图谱将scaffold合并调整,形成染色体级别的组装(chromosome)
一. 短序列拼接
SPAdes
- SPAdes 主要用于进行单细胞测序的细菌与基因组拼接,也能用于非单细胞测序数据。
安装
#下载SPAdes
wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0/SPAdes-3.12.0-Linux.tar.gz
#解压压缩包,路径为SPAdes压缩包的位置,解压到家目录下
tar zvxf [路径] /SPAdes-3.12.0-Linux.tar.gz -C
#配置环境变量
echo 'export PATH =~SPAdes-3.12.0-Linux/bin:$PATH'
#使配置生效
source ~/.bashrc
#查看结果
spades.py -h
结果
拼接基因组
#将结果保存到SPAdes文件夹中
#同一个基因组分别拼接一个优化过和没优化过的
spades.py --careful -1 test_7942raw_1.fq -2 test_7942raw_2.fq.gz -o ./SAPAdes
spades.py --only-assembler --careful -1 test_7942raw_1.fq -2 test_7942raw_2.fq.gz -o ./SPAdes_without_correction
ps:这里因为没有设置K值,所以会运行较长时间来寻找合适的K值,当知道K值时可以加上合适的K值,会缩短运行时间
结果
二. 序列拼接结果评价
Quast
安装
ps:已经提前把下载好的压缩包传到虚拟机上了,因为直接用sudo apt install命令下载太慢
tar zvxf quast-5.0.0.tar.gz ##解压压缩包
cd quast-5.0.0
./quast.py ##查看是否能运行
echo 'export PATH=~/quast-5.0.0:$PATH' >> ~/.bashrc ##配置环境变量
source ~/.bashrc
序列拼接结果评价
#对SPAdes的拼接结果进行评价
quast.py ~/SPAdes/contigs.fasta -o ~/SPAdes quast_out
#比较with和without error correction的拼接结果
quast.py -o compare_correction ./SPAdes/contigs.fasta ./SPAdes_without_correction/contigs.fasta
结果