组装细菌基因组

1.上Genome Announcements网站(https://mra.asm.org/)找一篇细菌基因组文章;找到文章记载的SRA号;

1
2
  • 由于步骤都是一样的,我们只对菌株4041进行组装。

2.从SRA数据库上用prefetch下载该文件;

  • 代码:
    prefetch SRR5513009
    prefetch
  • 因为中间有失去连接,我们不敢保证下载的序列是否完整,上ftp官网看一下大小,都是600M,应该下载完整了。


    下载的序列

3. Fastq-dump解压,解压为gz文件,可以节省空间。因为需要点时间,我们让它在后台运行。

fastq-dump --gzip --split-files ~/ncbi/public/sra/SRR5513009.sra &

5

4. Fastqc质控

wwwww77@wwwww77-VirtualBox:~/assembly$ fastqc SRR5513009_1.fastq.gz
Started analysis of SRR5513009_1.fastq.gz
Approx 5% complete for SRR5513009_1.fastq.gz
Approx 10% complete for SRR5513009_1.fastq.gz
Approx 15% complete for SRR5513009_1.fastq.gz
Approx 20% complete for SRR5513009_1.fastq.gz
Approx 25% complete for SRR5513009_1.fastq.gz
Approx 30% complete for SRR5513009_1.fastq.gz
Approx 35% complete for SRR5513009_1.fastq.gz
Approx 40% complete for SRR5513009_1.fastq.gz
Approx 45% complete for SRR5513009_1.fastq.gz
Approx 50% complete for SRR5513009_1.fastq.gz
Approx 55% complete for SRR5513009_1.fastq.gz
Approx 60% complete for SRR5513009_1.fastq.gz
Approx 65% complete for SRR5513009_1.fastq.gz
Approx 70% complete for SRR5513009_1.fastq.gz
Approx 75% complete for SRR5513009_1.fastq.gz
Approx 80% complete for SRR5513009_1.fastq.gz
Approx 85% complete for SRR5513009_1.fastq.gz
Approx 90% complete for SRR5513009_1.fastq.gz
Approx 95% complete for SRR5513009_1.fastq.gz
Analysis complete for SRR5513009_1.fastq.gz
wwwww77@wwwww77-VirtualBox:~/assembly$ fastqc SRR5513009_2.fastq.gz
Started analysis of SRR5513009_2.fastq.gz
Approx 5% complete for SRR5513009_2.fastq.gz
Approx 10% complete for SRR5513009_2.fastq.gz
Approx 15% complete for SRR5513009_2.fastq.gz
Approx 20% complete for SRR5513009_2.fastq.gz
Approx 25% complete for SRR5513009_2.fastq.gz
Approx 30% complete for SRR5513009_2.fastq.gz
Approx 35% complete for SRR5513009_2.fastq.gz
Approx 40% complete for SRR5513009_2.fastq.gz
Approx 45% complete for SRR5513009_2.fastq.gz
Approx 50% complete for SRR5513009_2.fastq.gz
Approx 55% complete for SRR5513009_2.fastq.gz
Approx 60% complete for SRR5513009_2.fastq.gz
Approx 65% complete for SRR5513009_2.fastq.gz
Approx 70% complete for SRR5513009_2.fastq.gz
Approx 75% complete for SRR5513009_2.fastq.gz
Approx 80% complete for SRR5513009_2.fastq.gz
Approx 85% complete for SRR5513009_2.fastq.gz
Approx 90% complete for SRR5513009_2.fastq.gz
Approx 95% complete for SRR5513009_2.fastq.gz
Analysis complete for SRR5513009_2.fastq.gz

  • 我们可以下载html文件到Windows端看一下结果。
  • 从中我们可以知道输入文本的reads的数量是5843752,测序长度是35-151,GC含量是67%,有点高,但由于由于二代测序GC偏好性高,且深度越高,GC含量会越高。
  • 从Per base sequence quality来看我们的reads大部分都在绿色区域,说明质量比较高。
  • 碱基总体质量值也都在高质量区域。
fastqc.html

SRR5513009_1.fastq.gz

SRR5513009_1.fastq.gz

SRR5513009_1.fastq.gz
SRR5513009_2.fastq.gz

SRR5513009_2.fastq.gz

SRR5513009_2.fastq.gz

5.Trimmomatic去接头:

  • 由文章可知这些数据是由illumina平台测序得到的,我们用Trimmomatic去除接头,因为这个软件其实就是专为illumina平台数据而设计的。
mkdir trim_out
java -jar ~/Biosofts/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR5513009_1.fastq.gz SRR5513009_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/wwwww77/Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:4:15 LEADING:5 TRAILING:5 MINLEN:50
Trimmomatic

trim_out

6.再次FastQC对过滤后的数据进行质量测评

wwwww77@wwwww77-VirtualBox:~/assembly$ fastqc trim_out/output_forward_paired.fq.gz
Started analysis of output_forward_paired.fq.gz
Approx 5% complete for output_forward_paired.fq.gz
Approx 10% complete for output_forward_paired.fq.gz
Approx 15% complete for output_forward_paired.fq.gz
Approx 20% complete for output_forward_paired.fq.gz
Approx 25% complete for output_forward_paired.fq.gz
Approx 30% complete for output_forward_paired.fq.gz
Approx 35% complete for output_forward_paired.fq.gz
Approx 40% complete for output_forward_paired.fq.gz
Approx 45% complete for output_forward_paired.fq.gz
Approx 50% complete for output_forward_paired.fq.gz
Approx 55% complete for output_forward_paired.fq.gz
Approx 60% complete for output_forward_paired.fq.gz
Approx 65% complete for output_forward_paired.fq.gz
Approx 70% complete for output_forward_paired.fq.gz
Approx 75% complete for output_forward_paired.fq.gz
Approx 80% complete for output_forward_paired.fq.gz
Approx 85% complete for output_forward_paired.fq.gz
Approx 90% complete for output_forward_paired.fq.gz
Approx 95% complete for output_forward_paired.fq.gz
Analysis complete for output_forward_paired.fq.gz
wwwww77@wwwww77-VirtualBox:~/assembly$ fastqc trim_out/output_reverse_paired.fq.gz
Started analysis of output_reverse_paired.fq.gz
Approx 5% complete for output_reverse_paired.fq.gz
Approx 10% complete for output_reverse_paired.fq.gz
Approx 15% complete for output_reverse_paired.fq.gz
Approx 20% complete for output_reverse_paired.fq.gz
Approx 25% complete for output_reverse_paired.fq.gz
Approx 30% complete for output_reverse_paired.fq.gz
Approx 35% complete for output_reverse_paired.fq.gz
Approx 40% complete for output_reverse_paired.fq.gz
Approx 45% complete for output_reverse_paired.fq.gz
Approx 50% complete for output_reverse_paired.fq.gz
Approx 55% complete for output_reverse_paired.fq.gz
Approx 60% complete for output_reverse_paired.fq.gz
Approx 65% complete for output_reverse_paired.fq.gz
Approx 70% complete for output_reverse_paired.fq.gz
Approx 75% complete for output_reverse_paired.fq.gz
Approx 80% complete for output_reverse_paired.fq.gz
Approx 85% complete for output_reverse_paired.fq.gz
Approx 90% complete for output_reverse_paired.fq.gz
Approx 95% complete for output_reverse_paired.fq.gz
Analysis complete for output_reverse_paired.fq.gz

  • 为了方便看过滤后数据的质量对比,我们用MultiQC把结果整合成一个HTLM网页交互式报告。
    过滤后的正反序列质量报告居然一样,multiqc直接把它们识别为一个报告文件了。
    multiqc *.zip

    multiqc

  • 把multiqc_report.html用WinSCP下载到本地查看
    发现其实过滤效果并不十分明显,其中reads重复率降低了一点,还有就是SRR5513009_2过滤前的每条reads各位置N碱基含量比例高了一点点,但其实也是处于高质量区域。
    另外图三也说明了原序列基本没什么接头污染。


    1

    2

    3

7.Spades组装基因组草图:

  • 原文有提到参数要求,文件是paired-end reads,要选用--careful来减少错误和插入缺失

Genome assemblies were produced with SPAdes genome assembler version 3.10 (14), set in “paired-end assembly, careful mode,”

wwwww77@wwwww77-VirtualBox:~/assembly/trim_out$ spades.py --careful --pe1-1 output_forward_paired.fq.gz --pe1-2 output_reverse_paired.fq.gz -o ./SPAdes_out
  • 出现报错了,我上网查了查SPAdes的err code :255是由于RAM不够造成的。我们关闭虚拟机,把虚拟机的内存大小调大一点,我调到了5058MB。重启后再执行这个语句
报错

内存调整
  • SPAdes组装完成


    image.png

8.Quast评价组装的基因组效果

  • 可以自定义参数,skip contigs shorter than 200 bp
wwwww77@wwwww77-VirtualBox:~/assembly/trim_out$ quast.py SPAdes_out/contigs.fasta --min-contig 200 -o SPAdes_out/quast_out
quast
  • quast执行完成后结果有很多,我们可以直接查看report.txt;
    我们也可查看其中的网页版报告,一般看icarus.html,其为导航页面,更便于查看更多结果。
quast结果·
  • 一般contigs/scaffolds序列总数越少、序列总长度合理、N50等值越高长,组装结果越好
    从report.txt可以看到Arthrobacter sp. 4041总基因组长度为3912868 bp,GC含量为67.65%,N50值为536987bp 。


    report.txt

    image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容