HISAT2,StringTie,Ballgown处理转录组数据

HISAT2,StringTie,Ballgown处理转录组数据思路如下:

数据质控

将RNA-seq的测序reads使用hisat2比对

samtools将sam文件转成bam,并且排序,为下游分析做准备

stringtie对每个样本进行转录本组装

stringtie 将所有样本的转录本进行合并 注意:此处的mergelist.txt是自己创建的

计算表达量并且为Ballgown包提供输入文件

Ballgown的安装 分析,需提供一个分组信息;

0.数据质控(QC):

Ubuntu软件包内自带Fastqc,故安装命令apt-get install fastqc

fastqc命令:

fastqc -o . -t 5 SRR3101238_1.fastq.gz &

-o . 将结果输出到当前目录

-t 5 表示开5个线程运行

(四个样本,双端测序,要分别对八个fastq文件执行八次)

1.将RNA-seq的测序reads使用hisat2比对

准备软件:

安装HISAT2

下载地址:

http://ccb.jhu.edu/software/hisat2/downloads/

wgethttp://ccb.jhu.edu/software/hisat2/downloads/hisat2-2.0.0-beta-Linux_x86_64.zip-P ./

解 压 缩:

unzip hisat2-2.0.0-beta-Linux_x86_64.zip

准备文件:

参考基因组序列;genome (chr.fa)

参考基因组的注释文件;genes (chr.gtf)

Hisat2索引文件;indexes (chr_tran.1.ht2)

测序数据;samples (chr_1.fastq.gz, chr_2,fastq.gz;样本表型信息 与 样本列表)

下载人类参考基因组和注释文件:

1.1 人类参考基因组:Hisat2官网上有Ensemble GRCh38的基因组索引, 链接:http://ccb.jhu.edu/software/hisat2/index.shtml

1.2 注释文件:下载自ensemble数据库ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens

1.3 索引文件的创建:从gtf文件中构建索引,命定如下:

extract_exons.py hg19.annotation.gtf > exons.txt

extract_splice_sites.py hg19.annotation.gtf > splicesites.txt

创建索引另外一种方法:

hisat2-build [options]*

<reference_in>:用于指定参考基因组;

<ht2_base>:用于指定生成的索引文件的基名;

./hisat2-2.0.0-beta/hisat2-build -f ucsc.hg19.fasta –ss splicesites.txt –exon exons.txt -p 7 ./ucsc.hg19

#添加–ss和–exon选项后,需要很大的内存,build 人基因组的话需要200G RAM,如果没有这么大内存,不要添加这两个选项,但要在后续运行hisat时添加 –known-splicesite-infile选项(见下文)

如hisat2-build -f ucsc.hg19.fasta -p 7 ./uscs.hg19 ##大概需要一小时二十分钟

(1). 比对,生成bam文件:“将RNA-seq的测序reads使用hisat2比对对参考基因租组”

hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam -t

hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam –known-splicesite-infile splicesites.txt -t

-x :用于指定参考基因组所对应的索引文件;

-1, -2: 用于指定测序 Reads 所在的文件;

-S:用于指定存储比对结果的文件名;

-p: 用于指定线程数;

(2) Sort and convert the SAM files to BAM

samtools sort -@ 8 -o ERR188044_chrX.bam ERR188044_chrX.sam

-@:用于指定线程数;

-o:用于指定存储转化结果的文件名;

注:*.bam 格式的文件为二进制文件;

在-b 指定的文件夹下生成特定的文件

e2t.ctab

e_data.ctab

i2t.ctab

i_data.ctab

t_data.ctab

e即外显子、i即内含子、t转录本;

e2t即外显子和转录本间的关系,

i2t即内含子和转录本间的关系,

t_data即转录本的数据

(3) assemble and quantify expressed genes and transcripts

stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188044_chrX.gtf -l ERR188044 ERR188044_chrX.bam

-G :用于指导组装过程的参考注释的文件;

-o:用于指定存储组装结果的文件名;

-l: 为转录本的ID指定前缀;

-p: 用于指定线程数;

(4) Merge transcripts from all samples:

stringtie –merge -p 40 -G chrX_data/genes/chrX.gtf -o stringtie_merged.gtf chrX_data/mergelist.txt

-G :用于指导组装过程的参考注释文件;

-o:用于指定存储组装结果的文件名;

-p: 用于指定线程数;

注: mergelist.txt 文件包含所有*.gtf 文件名的列表, 并且每个文件名占据一行。

(5) Examine how the transcripts compare with the reference annotation (optional)

./bin/gffcompare -r chrX_data/genes/chrX.gtf -G -o merged stringtie_merged.gtf

-r :用于指定参考的注释文件;

-o:用于指定存储结果的文件名的前缀;

-G:用于指定是否比较所有转录本(即使是冗余的);

(6) Estimate transcript abundances and create table counts for Ballgown

stringtie -e -B -p 48 -G stringtie_merged.gtf -o ballgown/ERR188044/ERR188044_chrX.gtf ERR188044_chrX.bam

-e:用于指定是否仅为参考转录本估计表达丰度;

-B:用于指定是否输出 Ballgown table 文件;

-p: 用于指定线程数;

-G :用于指定已组装的注释文件;

-o:用于指定输出结果的文件名;

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342