真核生物mRNA的5’ 帽子结构可以介导核糖体的结合,从而开启翻译过程,circRNA由于是一个闭合的环状结构,缺失了5’端帽子结构,所以归类为非编码RNA的一种。
随着环状RNA研究的深入,有科学家发现部分环状RNA可以编码蛋白。除了常见的5’帽子结构介导核糖体结合外,还存在了一种特殊情况,在一些基因上存在一段长度在150-250bp的序列,这些序列能够折叠成类似tRNA的结构,介导核糖体与RNA结合,起始蛋白质的翻译。这样的位点称之为内部核糖体进入位点序列,Internal ribosome entry site, 简称IRES。
能够编码蛋白的环状RNA上就是通过IRES来实现翻译过程的,为例研究环状RNA的蛋白编码潜能,有学者开发了识别IRES的软件,IRESfinder就是这样一款软件,用于识别真核生物的IRES位点,网址如下
https://github.com/xiaofengsong/IRESfinder
利用实验验证过的583个人类的IRES序列,挑选了19个kmer用于区分IRES和非IRES的序列,在论文中,给出了测试数据集中二种序列的kmer分布
[图片上传失败...(image-d5b8e1-1587005039277)]
在上图中,只包含了18个kmer,另外还有一个kmer是T,可以看到在IRES和非IRES序列之间,这些kmer的频率分布是有差异的。
软件采用Python进行开发,基本用法如下
python IRESfinder.py -f circRNA.fa -o IRES.out.xls
-f参数指定输入的fasta格式的序列,-o参数指定输出的结果文件。输出文件的内容示意如下
ID Index Score
hsa_circ_0018046 IRES 0.817344005
hsa_circ_0039868 IRES 0.795083668
hsa_circ_0089160 IRES 0.53322605
hsa_circ_0048972 IRES 0.784080068
hsa_circ_0018658 IRES 0.745230164
hsa_circ_0067857 IRES 0.704497116
hsa_circ_0019137 IRES 0.742607966
hsa_circ_0063162 IRES 0.738372532
hsa_circ_0087609 IRES 0.793042932
hsa_circ_0006254 IRES 0.64587644
通过这个软件,可以快速分析得到RNA上的IRES序列信息,不过软件的结果中假阳性肯定是很高的,后续还要通过实验手段来验证。