测序数据的获取、格式转换和质控

1. 获取测序数据

Aspera 软件以最快速度传输全球数据,不受文件大小、传输距离或网络条件的影响。

ubuntu下安装Aspera软件

下载Aspera软件包,解压,安装,添加到环境变量

wget https://download.asperasoft.com/download/sw/conne
ct/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
sh aspera-connect-3.6.2.117442-linux-64.sh
echo 'export PATH=$PATH:[ascp所在目录]' >> ~/.bashrc 
source ~/.bashrc

查看Aspera 工具下ascp 的帮助信息

ascp -h
ascp -h.png

SRA测序数据的下载

例如在NCBI的SRA数据库下载数据,这里选择NCBI 的ftp 服务器
网址为:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/
通过Aspera 下的工具ascp下载数据:

~/.aspera/connect/bin/ascp -T -i /home/lizeguo/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./Seqs/

参数解释:

USAGE:ascp [参数] 目标文件 目的地址
-T :不进行加密。若不添加此参数,可能会下载不了。
-i string :输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。

-l string:设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。
-k 1 :支持断点续传
--host=string:ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为
fasp.sra.ebi.ac.uk。
--user=string :用户名,NCBI的为anonftp,EBI的为era-fasp。
--mode=string :选择模式,上传为 send,下载为 recv。
--file-list:批量下载SRA文件的路径

2.测序数据的格式转换——SRA toolkit

NCBI开发,用于下载处理SRA文件,各种数据格式转换的工具包

SRA toolkit的下载、解压、安装

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz
tar -zvxf sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/
echo 'export PATH=~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

现在不仅可以通过SRA toolkit做格式转换,还可以通过SRA toolkit下的工具prefetch 下载SRA 数据
例如下载SRR6232298.sra文件

prefetch SRR6232298

软件自动建立~/ncbi/public/sra文件夹,下载sra文件

ls ncbi/public/sra/
SRR6232298.sra

查看SRA文件类型和格式转换

我们可以进入NCBI的SRA数据库,搜索SRR6232298


SRR6232298.png

可以看见它的layout为paired,说明是双末端测序,输出的文件为2个,这是我们在做格式转换的时候就需要输出两个文件:

fastq-dump --split-files SRR6232298.sra
ls
SRR6232298_1.fastq  SRR6232298_2.fastq  SRR6232298.sra

3.测序数据的质量控制——FastQC

用于测序数据质控的软件,下载后直接使用,需配置java环境
java安装包:
链接:https://pan.baidu.com/s/1Z9sS34oYfJl1GTaydrjekw
提取码:j1vu
复制这段内容后打开百度网盘手机App,操作更方便哦

java环境的安装

sudo mkdir /usr/java
sudo tar -zvxf BioSofts/jdk-8u172-linux-x64.tar.gz -C /usr/java/
cd /usr/java
sudo ln -s jdk1.8.0_172 latest
sudo ln -s /usr/java/latest default
sudo vi /etc/profile

在末尾添加这几行

export JAVA_HOME=/usr/java/latest
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source /etc/profile

查看java的版本

java -version
java

FastQC的下载和安装

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
unzip fastqc_v0.11.7.zip -d ~/BioSofts/
echo 'export PATH=~/BioSofts/FastQC:$PATH'>>~/.bashrc
source ~/.bashrc
chmod 777 ~/BioSofts/FastQC/fastqc 
fastqc -h
fastqc

fastqc质量评估

fastqc SRR6232298_1.fastq 

得到的结果如下


2018-11-26 15-24-32屏幕截图.png

将html文件用浏览器打开就可以查看结果。

测序数据的数据过滤

常用的数据过滤软件有Trimmomatic、seqtk、cutadapt、 bbduk(BBmap),用来切除低质量碱基和接头序列。
Trimmomatic 是一个广受欢迎的 Illumina 平台数据过滤工具。

Trimmomatic的安装

wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip
unzip Trimmomatic-0.38.zip -d ~/BioSofts/
java -jar ~/BioSofts/Trimmomatic-0.38/trimmomatic-0.38.jar

Trimmomatic的使用

java -jar <path to trimmomatic jar> SE [-threads <threads>] [-phred33 | -phred64] [-trimlog<logFile>] <input> <output> <step 1> <step 2> ...

参数详见:http://www.biotrainee.com/thread-1484-1-1.html

mkdir trim_out
java -jar ~/BioSofts/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 test_7942raw_1.fq.gz test_7942raw_2.fq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/lizeguo/BioSofts/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75
2018-12-03 14-01-44屏幕截图.png

2018-12-03 14-02-39屏幕截图.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容