RNA-seq练习 第一部分(原始数据下载,提取fastq文件,fastqc质控)

原始数据来源于这篇文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177

1.下载原始数据
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177
https://www.ncbi.nlm.nih.gov/sra?term=SRX339951

image.png

点击697.2Mb,然后进入下个页面:


image.png

点击SRR957677,这里插一句,下图layout指的是单端或者双端测序。single是单端,paired是双端。

image.png

在下一个页面里点击“Data access”,可以看到有一个NCBI的下载地址,copy地址,用wget下载。

wget https://sra-download.ncbi.nlm.nih.gov/traces/sra11/SRR/000935/SRR957678

现在下载的就是sra文件。

2 用sratoolkit从sra文件里提取fastq文件
(在sra文件所在的文件夹里提取,没有加目的文件夹)。--gzip是为了生成压缩的gz格式fastq文件。split-files是把提取的文件分成两份,unpaired的直接去掉。

fastq-dump --gzip --split-files SRR957677 #这是从单个sra文件里提取fastq文件

如果想从好几个sra文件里同时提取fastq文件,可以写一个小脚本运行:

vim fastqdump.sh
#!/bin/bash
for i in SRR* #for循环会遍历你指定的list里的每一个文件,并执行下面的命令
do
        echo $i #显示文件名
        fastq-dump --gzip --split-files $i #用fastqdump提取fastq文件
done
yanfang@YF-Lenovo:~/Documents$ ./fastqdump.sh#这里我尝试同时提取2个fastq文件,实际也不是同时,是一个一个来的
SRR957679
2019-08-28T17:27:31 fastq-dump.2.8.2 sys: timeout exhausted while reading file within network system module - mbedtls_ssl_read returned -76 ( NET - Reading information from the socket failed )
Read 19909740 spots for SRR957679
Written 19909740 spots for SRR957679
SRR957680
2019-08-28T17:34:48 fastq-dump.2.8.2 sys: timeout exhausted while reading file within network system module - mbedtls_ssl_read returned -76 ( NET - Reading information from the socket failed )
Read 24231941 spots for SRR957680
Written 24231941 spots for SRR957680

3.用安装好的fastqc查看(安装过程略)
直接在终端里调用fastqc

fastqc

点击file,open,选择要查看的fastq文件,然后fastqc会自动分析文件,最后生成一个报告。下面是报告的各项结果:
Basic Statistics:报告整体浏览

Measure Value
Filename SRR957678_1.fastq.gz
File type Conventional base calls
Encoding Sanger / Illumina 1.9
Total Sequences 8828013
Sequences flagged as poor quality 0
Sequence length 50
%GC 46

Filename:文件名
File type: 文件类型
Encoding:测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用。
Total Sequences: 输入文本的reads的数量
Sequence length: 测序长度
%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。

Per base sequence quality:某一位置上所有读段的测序质量评分

image.png

(最主要看得数据信息)quality就是Fred值,一条reads某个位置上出错概率为0.01时,quality值就是20,即常说的Q20。就是一个箱线图boxplot,黄色箱子(25%和75%的分数线),红色线(中位数),蓝线是平均数,下面和上面的触须分别表示 10%和 90%的点横坐标reads的碱基位置,最大值即为读长,纵坐标代表质量的好坏(判断的准确性)。如果任何一个位置的下四分位数小于10或者中位数小于25,会显示“警告”;如果任何一个位置的下四分位数小于5或者中位数小于20,会显示“不合格”。这个结果相对来说还是比较好的。
Per tile sequence quality:

image.png

图中横轴代表碱基位置,纵轴代表 tile 编号。图中的颜色是从冷色调到暖色调的渐变,冷色调表示这个 tile 在这个位置上的质量值高于所有 tile 在这个位置上的平均质量值,暖色调表示这个 tile 的在这个位置上的质量值比其它 tiles 要差;一个很好的结果,整张图都应该是蓝色,简单来说,就是看图内有无除蓝色外的亮点,有亮点代表低于平均值。当某些tail出现暖色,在后续的分析种把该tail测序结果全部去除。

Per sequence quality scores每条序列平均碱基质量分数

image.png

图中横轴为测序质量值,纵轴为 reads 数。红线上的每一个点表示quality值所对应的reads的数量,其面积就是总的reads数。如果最高峰所对应的横坐标质量值小于 27 (错误率 0.2 %) 则会显示“警告”,如果最高峰的质量值小于 20 (错误率 1 %) 则会显示“不合格”。如图所示红线单峰,分值在38左右,所以reads很可靠。

Per base sequence content每个位置的4种碱基组成比例

image.png

一个完全随机的文库内每个位置上 4 种碱基的比例应该大致相同,因此图中的四条线应该相互平行且接近25的位置左右。在 reads 开头出现碱基组成偏离往往是建库操作造成的,在reads上加接头的碱基组成不是均一的。会造成明显的碱基组成偏离。如果任何一个位置上的A和T之间或者G和C之间的比例相差10%以上则报“警告”,任何一个位置上的A和T之间或者G和C之间的比例相差 20%以上则报“不合格”。此结果总体上处于25%左右,且A和T比例相等,G和C比例相等,说明质量可以,但在前15个bp位置上严重分离,说明有碱基偏向性。可能有接头的污染。也有可能由于测序平台及测序长度不同,以及测序仪开始状态不稳定经常出现前后波动情况。

Per sequence GC contentGC含量:

image.png

横轴表示GC含量,纵轴表示不同GC含量对应的read数,蓝色为理论值,红色是真实值。在一个正常的随机文库中,GC 含量的分布应接近正态分布,且中心的峰值和所测基因组的 GC 含量一致。如果出现不正常的尖峰分布,则说明文库可能有污染, (如果是接头的污染,那么在 overrepresented sequences 那部分结果还会得到提示),或者存在其它形式的偏选;总体上就是看红色的线与蓝色线正态分布趋势是否接近。此图可知道红色线与蓝色线较为接近,质量较好。

Per base N content每个碱基上N的比例

image.png

当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率。如果任何一个位置 N 的比例大于5%则报“警告”,大于20%则报“失败”。此图可知基本无N,皆已测得为ATGC的碱基。测序质量较好。

Sequence Length Distribution Reads的长度分布

image.png

测序仪出来的原始 reads 通常是均一长度的,但经过质控软件等处理过的数据则不然;经过质控软件处理过的reads长度则不一样。当 reads 长度不一致时报“警告”,当有长度为 0 的 reads 时则报“不合格”。此图可知为测序仪产出的reads,长度皆为50bp。

Sequence Duplication Levels序列重复的水平

image.png

图中横轴代表 reads 的重复次数 ( 1 表示 unique 的序列,2 表示有 2 条完全相同的 reads ...),大于 10 次重复后则按不同的重复次数合并显示。 纵坐标表示各重复次数下的 reads 数占总 reads 的百分比。蓝线展示所有 reads 的重复情况,红线表示在去掉重复以后,原重复水平下的 reads 占去重后 reads 总数的百分比。如果非 unique 的 reads 占总 reads 数的 20 % 以上则报 ”警告“,占总 read 数的 50 % 以上则报 ”不合格“。不合格报错对于此项是正常现象,不需要太过关注。一般测序深度越高,越容易产生一定程度的重复序列。

Overrepresented sequences大量重复出现的序列
这个样品的此项结果为No overrepresented sequences。
我在网上搜到了一个例子:

image.png

显示同一条 read 出现次数超过总测序 reads 数的0.1%的统计情况。正常文库内序列的多样性水平很高,不会有同一条 read 大量出现的情况,这部分结果会把大量出现的 reads 列出来,并给出可能来源。如果有任何 read 出现的比例超过总 reads 数的0.1%则报警告,超过总 reads 数的1%则报不合格。如果检测出一条多重复序列,重复次数较多,推测可能是TrueSeq接头序列。

Adapter Content接头含量

image.png

显示 reads 中的接头含量,并显示可能的来源。图中横轴为碱基位置,纵轴为含有接头序列的比例。正常的情况下接头的含量应该接近0,如果 reads 中的接头含量过高,说明文库内小片段比例偏高 (这个可以从文库质检报告中看出来),这可能是由于片段选择时选取的长度偏短或者使用切胶的方式回收片段时上样过多致使小片段不能很好的分离等原因造成的;如果接头的含量随着碱基的位置增大而逐渐升高,则表示 reads 中含有接头 (如图所示),这部分接头会影响后续的分析,我们需要截掉 reads 中的接头序列或者将含有接头的 reads 完全删除。如果任何重复 read 超过总 reads 数的5%则报 '警告', 超过总 reads 数的10% 则报 '不合格,由图可知测序是没有接头污染的。如果有接头污染,在序列尾端会出现一个上扬的曲线。
**以上fastqc质控的图是SRR957678的结果。图解摘自两篇文章:
https://www.jianshu.com/p/bacb86c78b43
https://www.jianshu.com/p/f510dce0ab8c
还有一个英文版的fastqc质量报告解读:https://dnacore.missouri.edu/PDF/FastQC_Manual.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2(官网https://ccb.jhu....
    Y大宽阅读 102,383评论 12 187
  • 前言:写这篇文章的目的是为了梳理一下学习思路,按部就班地仿生信菜鸟团和简书:Y大宽教程大纲,做归纳整理,即便再次运...
    谢俊飞阅读 7,065评论 3 20
  • 今天想好的不要干涉大宝,充分的相信他的安排。我给他更多的允许,但做起来真的很难,我觉察到我对大宝无意识的控...
    孙丽若阅读 107评论 0 0
  • ​犹太人有多厉害我们就不重复了,直接进入主题。 活智慧:智慧只有化入金钱之中,才是活的智慧,钱只有化入了智慧之后,...
    王_俊博阅读 350评论 0 1
  • 今天是简书写字的第11天了,我算是打破了以往的记录,写的很不好,没人看。但没什么了。自己看看就行,只要我坚持下来了...
    李培应阅读 327评论 0 2