基因组|测序数据质控篇

前言：

一般测序下机数据会存在含N比例过大、测序质量较低的碱基数占比过高、含有duplication、序列污染等低质量reads,这些不合格的reads会影响后续的分析，所以，我们拿到测序数据首先要了解测序数据的质量情况，具体内容包括含N比例、GC含量、duplication情况、序列长度分布情况、碱基平衡情况等。

今天，我们将一起通过数据格式和质量体系、数据质控步骤、Fastqc结果解读及异常处理三大模块进行学习。

第一部分数据格式和质量体系

Illumina测序的下机数据一般为fastq格式，至于fastq格式的说明我已经在上期《测序技术原理及常用数据格式简介》中有详细描述，在进行数据质控前，我们需要知道数据中第四行质量字符和序列质量值Q值的关系以及Q值与碱基测序错误率的关系。

Fastq数据中的质量字符并不是和质量值Q值直接对应起来的，fastq数据格式中的质量字符是ASCII值，在Phred+64体系中，ASCII值-64的结果就是Q值，在Phred+33体系中，ASCII值-33的结果就是Q值。在Phred+33体系中，Q = -10log10(P), 碱基质量值与误率的对应关系表如下所示：

即，Q10准确率为90%，Q20准确率为99%，Q30准确率为99.9%，Q40准确率为99.99%，Q50准确率为99.999%。

第二部分数据质控

数据质控现在用得最多的是fastqc,我们今天就以它为工具学习如何了解测序数据质量。

Fastqc下载安装

wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip

unzip fastqc_v0.11.5.zip

cd FastQC

chmod +x fastqc

Fastqc评估测序数据质量

Usage:

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file][-t]

--(no)extract输出的结果不接压，若无此选项，输出的结果为.zip压缩文件。

-f fastq|bam|sam指定输入文件格式，若无此项，则会自动检测。

-c contaminant file指定一个contaminant文件，文件格式为”Name\tSequence”，fastqc会把overrepreseted sequence往这个contaminant文件搜索。

-t线程数

例子：

fastqc *fq.gz –t 4 #目录下所有fq.gz文件进行质控，线程数一般与文件数一致。

第三部分 fastqc结果解读及异常处理

Figure1 Quality Scores per base sequence quality

横轴代表碱基在序列中的位置，纵轴代表Q值，由前面碱基质量值与错误率的关系可知，若某个位置对应的Q值为30，则该处碱基测序准确率为99.9%。

如Figure1所示，在箱线图中，红色表示中位数，黄色是25%-75%区间，触须是10%-90%区间，蓝线是平均数。若任一位置的下四分位数低于10或中位数低于25，报"WARN"；若任一位置的下四分位数低于5或中位数低于20，报"FAIL"。

当出现任一位置的下四分位数低于10或中位数低于25或任一位置的下四分位数低于5或中位数低于20时，表示测序数据存在质量不合格的情况，这时我们可以继续观察Sequence Contentacross图、GC Contentacross all base图、N Content across all bases图、Sequences Duplication level stastics图这几个图进一步判断测序数据的不合格之处具体在哪。

观察Sequence Contentacross图和GC Contentacross all base图的GC含量的线是否平行于X轴，若不平行，则该位置往往有overrepresentedsequence的污染，可能原因建库过程的误差、测序的系统误差或者文库本身特点。

由N Content across all bases图可知reads中含N碱基的情况，理想状况下是含N量越少越好，在微生物多样性分析中一般是去除含N碱基比例>5%的序列。

去除含N比例过高的序列，可以用NGS QC tookit。该工具可在http://www.nipgr.res.in/ngsqctoolkit.html处下载，解压缩在QC/RIMINGREADS文件夹中用AmbiguityFiltering.pl脚本去除含N比例过高的序列，具体使用方法可以参考软件压缩包内的manual文件。

观察 Sequences Duplication level stastics图，横坐标是duplication的次数，纵坐标是duplicated reads的数目，若duplication的程度偏高，则可能存在PCR duplication。去除duplication可以通过Samtools、Picard或Iontorrent，其中Samtools只看5’端的起始位置不考虑reads突变；Picard不仅考虑起始位点也会考虑突变情况和质量值，即reads完全一样的才会被当成duplication被去除；Iontorrent则是看5’端的起始位置和3’端adaptor的比对情况，不考虑reads突变。

Figure2 Sequences Duplication level stastics图

去除PCR duplication的具体操作可参考：仔细探究samtools的rmdup是如何行使去除PCR重复reads功能的。

最后，在进行去低质量reads和接头等预处理步骤后，再次进行fastqc质控，然后用Multic QC即可把多个样品的质控结果汇总在一起，在报告中图片是交互式的，鼠标停留可显示样品名。如下图所示。

Figure3 多样品质控前后比较

当然，要是不想经历fastqc、NGS QC tookit、cutadapter、trimomatic这些工具这么麻烦，想省事点，直接一步到位完成所有测序数据预处理步骤，有没有这样的神器呢？有的，fastp可以做到。常规测序预处理流程一般包括Fastqc等软件进行质控、cutadapter去除接头、Trimmonatic进行过滤低质量reads、切除长度不合格的序列等步骤，涉及软件较多，比较繁琐，直接用fastp则可以一步到位完成。详情请点击https://github.com/OpenGene/fastp自行了解。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

基因组|测序数据质控篇

推荐阅读更多精彩内容