本章将介绍一些极简单的RNA生信分析,如利用在线网站预测RNA分子二级结构,分析非编码RNA(non-coding RNA)等。前面我们讲过DNA,蛋白质。而RNA分子的功能则更全面,它可以像DNA一样承载遗传信息,也可以像蛋白质一样催化反应。
核糖核酸(Ribonucleic Acid,RNA)根据功能和结构不同分为信使RNA和非编码RNA。而非编码RNA又可分为非编码大RNA(核糖体RNA(rRNA),长链非编码RNA)和非编码小RNA(转运RNA(tRNA),核酶,小分子RNA(miRNA,siRNA,piRNA,scRNA,snRNA,snoRNA等))。
一、预测,建模,绘制RNA二级结构
RNA的高级结构的发现二十世纪70年代生物界的重要进展,而且人们欣喜地发现RNA结构遵循的原则简单,主要是“沃森、克里克碱基互补配对”原则。
"
单链RNA就像一段胶带,很不稳定。只有在与其他配对才可以,当然不同种类的配对的稳定性也不同,倾向于形成最稳定的结构,即最低能量模型(lowest-energy model),如果要解开这个结构就需要供能。
下图是最典型的RNA二级结构——茎环结构。茎的部分也不总是完美配对的,会有不配对的残基形成凸起(bulges)。伪结(pseudo-knots)部分与RNA和离子、蛋白、其他RNAs互作有关。
RNA结构的稳定性不仅受到GC含量影响,茎中碱基对和环结(loop)大小,以及伪结也会对稳定性有影响。
其他蛋白或者分子也可能干预RNA结构的形成。目前对于RNA结构的预测,都是基于“该RNA自主形成高级结构”的假设上,所以预测也可能是错误的。
"
二、使用Mfold
Mfold是一个很古老又经典的网站,1995年就有了。它利用能量最低原则,同时考虑多种可能的影响因素,预测出最可能的RNA二级结构和次优结构。
下面用于举例的序列:
>Haemophilus_influenzae_Rd.trna49-AlaGGC (307354-307279) Ala (GGC) 76 bp Sc: 85.98GGGGATATAGCTCAGTTGGGAGAGCGCTTGAATGGCATTCAAGAGGTCGTCGGTTCGATCCCGATTATCTCCACCA
mfold等各种fold的网址:
http://www.unafold.org/mfold/applications/rna-folding-form-v2.php
1. 输入序列
输入序列,点击下面的fold RNA。如果事先不知道关于这段序列的任何信息,那么其他的参数都保持默认。如果知道一些,那么请按照“2”操作。
输入序列
2. 条件设定
若是已知序列的某一段的结构,在点击fold RNA之前,可以将已知条件输入。
例如“ F 7 0 5 ”表示强制序列的第7~11个碱基形成双链。“ P 7 0 5 ”表示强制序列的第7~11个碱基形成单链。还有强制连续排列的碱基对或禁止连续排列,以及禁止某段与另一段配对等。
3. 返回结果
下载结果,有多种文件格式可选,这个序列有四种可能的折叠
这里展示其中的一个
4. 调整折叠图
展示形式可以调整。
折叠部分结构还标注突出显示
5. 稳定性分析
mfold网页返回的结果不仅是这个折叠的图,还有关于每个结构稳定性的解析,以及一些dot plot。
三、在数据库和基因组搜索RNA序列
1. 用tRNAscan在基因组中寻找tRNAs
TRNAscan-SE网址:
http://lowelab.ucsc.edu/tRNAscan-SE/
上传FASTA格式的序列。
tRNAscan-SE结果
2. 用PatScan寻找RNA patterns
(1)PatScan UI网站:
https://patscan.secondarymetabolites.org/
首先将想要搜索的序列或基因组的FASTA文件上传,然后输入要在其中寻找的Pattern。这个操作里比较麻烦的就是想要检索的Pattern需要写成PatScan识别的格式。
(2)关于输入pattern的格式:
官网教程:
https://patscan.secondarymetabolites.org/tutorial#example1-1
一个简单的例子,p1=8...9 3...8 ~p1表示:【p1=8...9】stem p1包含8到9个核苷酸(省略号表示在8到9之间),【3...8】一个3到8个核苷酸的模式结构,【~p1】表示stem p1的反向互补。我们可以用PatScan体写出很多模式,还有一些书写规则,见下表。
网页会返回结果如下:
四、寻找小RNA:miRNAs和siRNAs
它们在细胞中起到调节作用,具体的发现过程和功能这里就不展开了。我们已知siRNA(silencing RNA)是双链,miRNA(micro-RNA)是单链,还往往形成茎环结构。
下面介绍一些相关网站和数据库,使用方法和前面的介绍大同小异:
1. miRvestigator Framework
https://mirvestigator.systemsbiology.net/
输入一个基因序列,将会返回一个最有可能调节这个基因的miRNA。
2. MIENTURNET
http://userver.bio.uniroma1.it/apps/mienturnet/
输入基因返回miRNA,输入miRNA返回基因的网站。
3. Dietary microRNA Database
http://sbbi-panda.unl.edu:5000/dmd/
已发表的microRNA数据库和相关注释信息。
4. miRNAminer
http://groups.csail.mit.edu/pag/mirnaminer/
已发表的microRNA数据库和相关注释信息。
5. PVsiRNAdb
http://14.139.61.8/PVsiRNAdb/index.ph
感染不同植物的不同病毒的vsiRNA序列相关的数据库。
6. siRNAmod
http://crdd.osdd.net/servers/sirnamod/
siRNAmod是经过人工验证的经过化学验证的化学修饰siRNA的数据库。
五、一些RNA分析线上资源的介绍
1. 核糖体RNA相关数据库
(1)RDP
http://rdp.cme.msu.edu/
细菌和古细菌16S rRNA序列,真菌28S rRNA序列,以及分析工具。
2. non-coding RNA
(1)RNAcentral
https://rnacentral.org/
非编码RNA数据库
(2)sRNAtools
https://bioinformatics.caf.ac.cn/sRNAtools/
非编码小RNA数据库
3. 通用RNA资源库
(1)RNAcentral Expert Databases
https://rnacentral.org/expert-databases
看名字就感觉很全面。
(2)ncRNA
https://www.ncrna.org/
简易工具箱的感觉。
往期相关内容:
【陪你学·生信】五、当你有一段待分析的DNA序列(基础操作介绍)
【陪你学·生信】六、当你有一段待分析的氨基酸序列(基础操作介绍)