细菌基因组的组装练习

作业记录：在Linux操作系统上利用各类生物软件练习组装细菌基因组

使用到的一系列工具（提前安装）：SRA-toolkit，Fastqc，trimmomatic，SPAdes，quast

(一) 找到一篇细菌基因组文章及其记载的SRA号

①进入美国微生物所官网，我们需要下载SRA测序数据，选择基因序列的文章分类寻找文章

进入文章分类

进入基因序列分类

文章

我们找到了文章：
Draft Genome Sequences of Two Cyanobacteria Leptolyngbya spp. Isolated from Microbial Mats in Miravalles Thermal Spring, Costa Rica | Microbiology Resource Announcements (asm.org)
②在文章中找到数据的SRA号

两种蓝藻的序列SRA号

(二) 利用SRA-toolkit中的prefetch下载SRA文件

需要时可批量下载，在这里作为练习简单下载两个。

prefetch SRR14062498 SRR14062499

下载好的文件夹

(三) 利用Fastqc中的fastq-dump解压数据

fastq-dump可将sra文件解压成不同类型的文件，在这里解压为gz文件以节省空间。

fastq-dump --gzip --split-files SRR14062498/SRR14062498.sra
fastq-dump --gzip --split-files SRR14062499/SRR14062499.sra 
#--split-files将解压结果生成新的文件夹，后接文件路径

解压后的gz文件

(四) 利用fastqc数据质量评价

使用fastqc和trimmomatic进行常规的质控和过滤数据，fastqc可以对测序数据的质量进行多方面评价，并输出为html网页格式和zip压缩格式。

mkdir fastqcdata #建立文件夹
fastqc SRR14062498_1.fastq.gz SRR14062498_2.fastq.gz SRR14062499_1.fastq.gz SRR14062499_2.fastq.gz -o  fastqcdata
# -o 输出至已存在的文件夹，若文件夹不存在，此选项不会帮你建立新的文件夹

两种格式的输出结果

在windows上打开html网页文件可直接查看评测结果，查看基础信息与评测出的其他信息，这里以SRR14062498_1为例作简单说明。

SRR14062498_1的各方面信息

基础信息

绿色的√表示通过，黄色的！警告和红色的×表示不合格，详细判断信息可参考：测序数据质量控制之FastQC

①× Per base sequence content：

此数据中碱基的内容被判为不合格，理论情况下的AT和GC线应该一致，测序机器开启或关闭时受操作或各种状态影响而不够稳定，这种情况下虽然整体质量通过，想要获取高质量序列时需要对首尾进行一定的裁剪。但注意，裁剪得越多不一定质量越高，因为裁剪意味着失去信息，对于未知序列来说也可能裁剪越严格越好。

标有红叉的碱基内容

②! Per sequence GC content：

GC比值与预测值相差较远而被系统警告。

标有叹号的GC比值

③! Sequence Length Distribution：

测序长度出的长度不同，被系统警告。

标有叹号的序列长度

fastqc的质控报告不一定符合需求，需要按照不同的情况判断。对于例子中的嗜热蓝藻菌序列来说，GC含量较高正常，因其结构简单，基因组测序草图总数少（7M和15M），受各因素影响，统计数据波动明显，很正常。

（五）用trimmomatic进行质控

下面根据原文献的处理方法使用trimmomatic进行一定的数据过滤。

原文献摘录

mkdir trim_out #创建文件夹
java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 ./fastqcdata/SRR14062498_1_fastqc.zip ./fastqcdata/SRR14062498_2_fastqc.zip ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/disk/201931107010248/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:4:20 MINLEN:100
#第一个路径为jar文件路径，第二个和第三个路径为待拼接序列路径，再往后的四个路径为结果输出路径，最后为参数选项
#若找不到文件或出错，检查名称，尝试把路径改为绝对路径

代码含义

一些参数的含义：
ILLUMINACLIP:接头文件路径:2:30:10 在比对接头序列时允许有2个位置的碱基发生错配，双端测序的两条reads与接头序列匹配率超过30%的话，就会被切除掉，单条reads如果与接头序列的匹配率超过10%，也会被切除掉
SLIDINGWINDOW:4:20 以4bp为窗口进行滑窗统计，切除碱基平均质量低于20的窗口及之后的序列
MINLEN:100 序列片段小于100bp则丢掉这段序列
更多使用信息可参照：NGS 数据过滤之 Trimmomatic 详细说明

生成四个输出结果，分别是正向配对、正向未配对、反向配对和反向未配对。

过滤输出文件

(六) 用SPAdes组装基因组草图

使用SPAdes软件进行基因组草图的组装，用得到的正向配对和反向配对结果进行序列拼接。

mkdir spades_test #创建存放数据的文件夹
spades.py --careful --phred-offset 33 --pe1-1 ./trim_out/output_forward_paired.fq.gz  --pe1-2 ./trim_out/output_reverse_paired.fq.gz -o ./spades_test

一些参数的含义：
--carefull 一种拼接模式，减少错误和插入序列
--phred-offset 33 一种碱基质量体系，在用trimmomatic进行数据过滤时也设置过
--pe1-1为第一条序列信息（正链），后接相对路径，pe1-2为第二条（反链）
-o 后接输出路径
更多使用信息可参照：使用 SPAdes 进行基因组组装

运行时出现了未知错误，询问老师过后，可能是共享服务器的内存不足，我决定将拼接移到我的个人虚拟机上运行（之前在老师提供的SSH运行）。

错误代码:6

虚拟机终端命令行

成功运行

输出的文件

(七) 用quast评测组装的基因组信息

①quast软件需要的环境版本为python2，首先检查python版本

python --version

本机python版本：3.8

若python版本不符合，则需切换到python2环境：
（如果用conda安装，在安装时就会提示环境不同且安装失败。需要切换好python2环境后再安装）

conda create --name python27 python=2.7 -y #下载并命名python2环境
conda activate python27 #加载环境

切换成功

②在相应环境下，执行quast.py指令，结果输出至quast_out文件夹，可打开查看

mkdir quast_out #创建文件夹
quast.py ./spades_out/contigs.fasta -o quast_out

多种文件格式的report

不同文件格式的报告各有特点，如.txt文本格式纯文本，.pdf图片格式纯图表，.html网页格式文本图表兼并等，可按需查看取用。

repert.txt

report.pdf

文本数据（网页上部分）

图像表格（网页下部分）

基因组基本组装完成，在这里可以查看序列连续contigs、基因片段长度length等总和或连续的信息。其中较为重要的参考值为N50，即由长到短拼接序列并将长度进行累加，当拼接长度达到总序列的一半时，最后拼上的片段长。N50越大，代表长片段的reads更多，拼接的效果越好。

最后编辑于：2021.11.10 09:04:32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342