全长转录本结构分析(下)

作者:Arno
审稿:童蒙
编辑:angelica

前面我们介绍了PacBio三代全长转录组测序相关的全长转录本鉴定、全长转录本比对、全长转录本结构分析上篇。

今天我们继续介绍包括新转录本鉴定、可变剪切以及可变多聚腺苷酸化APA等全长转录本结构分析。

新转录本鉴定

通过将去除冗余后的unique转录本与参考基因组进行比较,可以对转录本进行结构注释,从而可以发现新的未知的转录本。

MatchAnnot软件是一款可以将比对结果跟注释文件或者注释文件和注释文件进行比较的Python软件,可以鉴定已知和新的全长转录本,同时基于其输出结果还可以进行基因的可视化。下面我们看看具体怎么使用。

1. 比对

MatchAnnot需要比对并排序后的sam文件作为输入,所以再运行之前,需要先进行全长转录本的比对,可以参考我们之前介绍的比对方面,下面给大家再提供一个示例。

## step1. 比对(可以使用gmap或minimap2均可)
gmap -D [dir] -d hg38 -f samse -n 0 sample.hq.fasta > sample.raw.sam
minimap2 -ax splice -uf --secondary=no hg38.fa sample.hq.fasta > sample.raw.sam
samtools view -bS -o sample.raw.bam sample.raw.sam
samtools sort -@ 8 sample.raw.bam ./sample
/samtools index sample.bam
samtools view -h sample.bam sample.sam

2. 运行MatchAnnot

得到排序后的sam文件后,进行MatchAnnot分析。MatchAnnot会对三代测序到转录本,逐个exon进行分析,找出注释文件中对应的所有转录本,以及新发现的转录本。具体的输出文件解读或格式,可以参考:https://github.com/TomSkelly/MatchAnnot/wiki/How-to-Interpret-matchAnnot-Output

## step2. MatchAnnot
python ~/MatchAnnot-master/matchAnnot.py --gtf hg38.gtf --format alt sample.sam --outpickle  sample.pick >sample.matchAnnot.xls
# --format gtf的格式默认为GENCODE标准的GTF格式,同时也支持alternate format(包含更多信息的gtf格式)或者python的pickle格式
# --outpickle 如果需要进行后续的可视化,需要输出pickle格式
# 输入的Sam文件需要是按照染色体排序的

3. 结果可视化

为了更好的帮助理解MatchAnnot的输出结果,该软件同时提供了可视化的方法,可以针对性的可视化感兴趣的基因。运行示例,以及结果示例如下:

## step3 clusterView
python ~/MatchAnnot-master/clusterView.py --gtf hg38.gtf --format alt \
    --gene=target_gene --matches sample.pickle --output target_gene.png \
    --title "target gene"

可变剪切鉴定

真核生物中,基因转录产生的mRNA前体可以通过外显子跳跃、内含子保留等不同的剪切形式产生多种转录本异构体(isoforms),大大增加了转录本多样性。全长转录组测序凭借读长优势,能够直接获得由5’端至3’端poly(A)尾的完整mRNA序列,从而可以准确鉴定基因的不同剪切形式的转录本。

可变剪切(Alternative splicing),通常可以划分以下几种常规类型:

  • 外显子跳跃(Skipped exon, SE)
  • 5'端可变外显子(Alternative 5’ splice site, A5SS)
  • 3'端可变外显子(Alternative 3’ splice site, A3SS)
  • 内含子保留(Intron Retention, IR)
  • 互斥外显子(Mutually Exclusive Exons, MEE)

除此常规类型之外,还有可变转录起始位点、可变转录终止位点等类型。总之,基因的可变剪切形式多种多样,从而导致转录本和蛋白结构与功能的多态性,是一种重要的调控机制。

目前常见的全长转录本的可变剪切分析工具有:

  • SpliceMap-LSC-IDP pipeline
  • SUPPA2
  • AStalavista等。

AStalavista相较SpliceMap-LSC-IDP pipeline工具检出效率要高很多,建议大家使用AStalavista。

AStalavista(alternative splicing and transcriptional landscape visualization)工具的分析,基于鉴定的转录本的gtf注释文件,可以在线(http://astalavista.sammeth.net/ )或者本地命令行两种使用形式,使用简单方便。其中,本地命令行执行方式可参考如下:

~/AStalavista/astalavista-4.0/bin/astalavista -t asta -i sample.transcript.gtf --threads 2 -o result.gtf 1>./astalavista.o 2>&1
## -t 指定astalavista使用的分析工具,默认为asta,进行可变剪切事件鉴定,另外还可以使用sortBED、sortGTF、subsetter等工具
## -i 输入文件
## --threads使用线程数
## 结果输出形式为gtf形式,其中structure部分,分别用数字、"^","-"符号表示可变剪切发生的相对位置、供体和受体位点。如'0,1-2^'代表SE类型;'1-,2-'代表A3SS类型;'1^,2^'代表A5SS类型;'1-2^,3-4^'代表MXE类型;'0,1^2-'代表IR类型等。

SUPPA2软件也可基于全长转录本gtf文件进行可变剪切事件鉴定,同时可以基于二代数据,进行可变剪切定量以及差异可变剪切分析,功能比较强大。

## step1. 基于二代数据进行转录本定量
~/salmon/bin/salmon index -t unigene.fa -i unigene_index
~/salmon/bin/salmon quant -i unigene_index -l ISF --gcBias -1 R1.fq -2 R2.fq -p 4 -o sample
python ~/SUPPA/multipleFieldSelection.py -i ~/Salmon_output/*/quant.sf -k 1 -f 4 -o sample_tpm.txt ## 整理salmon结果
## step2. 使用generateEvents命令根据全长转录本gtf文件生成所有的可变剪切事件,结果为ioe格式
python ~/SUPPA/suppa.py generateEvents -i unigene.transcript.gtf -o sample.events -e SE SS MX RI FL -f ioe
### -i 输入的gtf文件
### -o 输出的文件前缀
### -e 输出可变剪切的类型
### -f 设置输出格式,将不同的可变剪切事件合并成一个结果
## step3. 计算PSI值,结果为.psi格式
python ~/SUPPA/suppa.py psiPerEvent -i sample.events.ioe -e sample_tpm.txt -o sample_events
## step4. 两个样本间的差异分析,结果为.dpsi格式
python ~/SUPPA/suppa.py diffSplice -m empirical -gc -i unigene.transcript.gtf -p sample1_events.psi sample2_events.psi -e sample1_tpm.txt sample2_tpm.txt  -o sample_diffSplice
## step5. 对可变剪切事件进行聚类分析
python ~/SUPPA/suppa.py clusterEvents --dpsi sample_diffSplice.dpsi --psivec sample.psivec --sig-threshold 0.05 --eps 0.2 --separation 0.11 -dt 0.2 --min-pts 10 --groups 1-2,4-6 -c OPTICS -o ./

可变多聚腺苷酸化APA分析

可变多聚腺苷酸化(alternative polyadenylation,APA)是指一个基因上有多个多聚腺苷酸化位点,使得一个基因可以产生多条带有不同长度3’UTR的mRNA,即polyA尾长度不一致,可能产生不同编码序列的转录本,从而使得转录本存在多样性。
APA是一种非常常见的转录后修饰和调控方式,polyA的长度对于mRNA的稳定性以及蛋白翻译影响很大,太短的mRNA稳定性较差,不同物种间的polyA尾长度差异也比较大。

一般APA可以分为四种类型:
1 3’UTR APA:发生在末端外显子内,产生具有不同长度3’UTR的转录本,不影响蛋白编码功能,是最常见的APA形式;
2 可变末端外显子APA:这种APA产生了末端外显子不同的转录本,影响蛋白编码功能;
3 内含子APA:发生于在内含子区,延长了某个内部外显子并使之成为末端外显子;
4 内部外显子APA:在编码区域内部发生剪切和多聚腺苷酸化。

TAPIS(Transriptome AnalysisPipeline from Isoform Sequencing)可以用来做全长转录组可变剪切以及APA分析,研究者使用此软件研究了高粱的可变polyA。依赖于Python2.7,其可用于三代测序数据的纠错、比对、鉴定可变剪切以及识别APA位点,原理流程如下图所示。

其用于鉴定APA位点的使用方法可参考如下。

## step1 alignPacBio.py 将全长转录本回帖到基因组,依赖于Gmap软件比对
usage: alignPacBio.py [-h] [-v] [-i ITERATIONS] [-e EDR] [-o OUTDIR]
                      [-p PROCS] [-K MAXINTRON]
                      indexesDir indexName reference fasta
python alignPacBio.py -p 4 -o ./sample ~/Genome_Index ref ref.genome.fa sample.collapsed.hq.fa
# ~/Genome_Index 为GMAP软件比对建立的参考基因组索引所在文件夹
# ref 索引名称
# ref.genome.fa 索引序列
# sample.collapsed.hq.fa 去冗余的转录本
## step2 run_tapis.py 分析可变剪切和APA
usage: run_tapis.py [-h] [-v] [-p] [-o OUTDIR] [-t TRIMMAX] [-w W]
                    [-m MINDIST] [-s MINSUPPORT]
                    geneModel bamfile
python run_tapis.py -o ./sample ref.gtf ~/Sampe/aligned.bam   
# 两个输入文件:参考基因组的注释文件以及前一步的比对结果
# 输出文件为 assembled.gtf 和  polyA_summary.csv 记录了每个基因polyA的个数以及位置           

参考文献

  1. Foissac S, Sammeth M (2007) ASTALAVISTA: dynamic and flexible analysis of alternative splicing events in custom gene datasets. Nucleic Acids Research 35 (Web Server issue): W297-299
  2. https://github.com/comprna/SUPPA/wiki/SUPPA2-tutorial#differential-splicing-with-local-events
  3. Abdel-Ghany,S. E., Hamilton, M., Jacobi, J. L., Ngam, P., Devitt, N., Schilkey, F.,Ben-Hur, A., and Reddy, A. S. N. A survey of the sorghum transcriptome usingsingle-molecule long reads. Nature Communications, 2016 7:11706.
  4. https://github.com/TomSkelly/MatchAnnot/wiki/How-to-Interpret-matchAnnot-Output
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,100评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,862评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,993评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,309评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,303评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,421评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,830评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,501评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,689评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,506评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,564评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,286评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,826评论 3 305
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,875评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,114评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,705评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,269评论 2 341

推荐阅读更多精彩内容