植物基因组学-fastp进行高通量测序数据的质控

对于各位小伙伴来说，无论是自己独立进行高通量测序数据分析，还是解读公司的测序结果，一个必须要面对的情况就是高通量测序数据的质量控制，又称Quality Control。照顾到有些不会代码的同学，今天我们不仅将会介绍一个具体软件的使用说明，还会给大家附图解读。希望各位小伙伴多多点赞和关注。

今天我们要推荐的软件是fastp，一个包含了质控，过滤，校正以及预处理的fastq文件处理软件。相比于传统的Fastqc+

Trimmomatic组合，该软件的效率简直更高了有没有？而且自2018年发表后，已经达到了惊人的369次引用。

闲言少叙，我们今天主要介绍两部分。

图1.引用量

1. fastp的使用。

1.1下载。

如果下载了conda的同学，可以使用如下命令

conda install -c bioconda fastp

使用源代码安装

# 从github下载
git clone https://github.com/OpenGene/fastp.git

# 切换到该文件目录，安装

cd fastp

make

sudo make instal

1.2 使用

单端测序数据，

以下默认该软件添加到了环境变量，如果未添加，请使用绝对路径。

fastp -i input.fq -o output.fq

双端测序数据

fastp -i input.R1.fq -o output.R1.fq -I input.R2.fq -O output.R2.fq

# 如果为了节省空间，可以使用如下命令
fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz

#批量处理的情况下，为了防止文件的覆盖，使用如下的命令

图2 测试数据

ls *_1.fastq | while read id; do "fastp -i $id -o ${id%_*}.1.fastp.fq -I ${id%_*}_2.fastq -O ${id%_*}_2.fastp.fq -h ${id%_*}.html "; done

该软件的常用功能基本上已经介绍完了，其他的例如接头、滑窗处理、过滤短序列、polyG剪切等，感兴趣的小伙伴可以自己查询说明书。

2. 结果解读

该软件的结果文件包括如下四个，分别双端过滤后的两个文件，即过滤后的高质量reads；日志文件，以及html文件。

图3.测试数据的结果

我们重点看html文件，这是网页版的，更可视化。

结果第一项是summary，可以看到reads长度、重复率等，以及过滤前的reads数目，大小和过滤后的，包括Q30值等重要信息。

图4.结果的summary

接头信息，fastp 软件会自动进行接头信息的处理，特别是对双端数据处理的更好。

图5.接头信息

重复率

图6.重复率

插入片段的评估

图7.插入片段的评估

fastp还对5个碱基长度的k-mer进行了统计。在k-mer统计表中，背景越深，则表示该k-mer出现频数越多，可能存在异常情况。

图8.kmmer统计量

过滤后的质量值，分碱基统计，将鼠标放置到特定的线条上即可显示数值。

图9.过滤后的reads1质量值

过滤后的read1碱基含量。

图10.过滤后的reads1的碱基含量

fastp作为最近才出的一个质控，过滤以及修剪软件，可以说功能还是很强大的，今天我们只是简单的介绍了常用的方法，手边有测序数据的同学可以看看自己的数据质量怎么样。欢迎大家留言、评论，以及讨论！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

植物基因组学-fastp进行高通量测序数据的质控

今天我们要推荐的软件是fastp，一个包含了质控，过滤，校正以及预处理的fastq文件处理软件。相比于传统的Fastqc+

Trimmomatic组合，该软件的效率简直更高了有没有？而且自2018年发表后，已经达到了惊人的369次引用。

推荐阅读更多精彩内容