全长转录组 | 三代全长转录之circRNA(ONT )-- CIRI-long

环状RNA(circular RNA,circRNA)是一类特殊的非编码RNA(noncoding RNA,ncRNA),也是RNA领域最新的研究热点。与传统的线性RNA(linear RNA,含5’和3’末端)不同,circRNA分子呈封闭环状结构,不受RNA外切酶影响,表达更稳定,不易降解。

目前研究表明,在生物体内,circRNA主要通过其序列特征,发挥miRNA海绵RNA-binding proteins (RBPs)海绵以及翻译短肽等生物学功能(1-2)。因此,确定其的全长序列,是进行circRNA功能研究的重要基础。由于目前对于circRNA的研究多采用二代测序的方法,而circRNA的内部序列与线性mRNA分子高度相似,单纯通过算法(识别反向剪切位点)很难区分来自环形RNA和线性RNA分子的读段,以及确定全长circRNA内部组成。近期的研究中利用了长读长测序技术,对circRNA的全长重构进行了尝试(3-4)。因此,目前研究方法对于circRNA结构的识别能力主要被二代测序的读长所限制,对于长度较长(>500bp)的circRNA分子,仍然缺少有效的全长重构手段。

赵方庆教授团队前期提出了CIRI-AS算法(基于BSJ读段对比结果对环形RNA内部可变剪接结构进行识别)。后续研究开发了CIRI-full算法(通过识别双端250bp测序数据中反向重叠区特征,对500bp以内的环形RNA进行全长重构)。上述方法主要基于短读长测序技术,难以对长度500bp以上的circRNA的全长序列进行有效识别。

在此基础上,2021年3月11日,中国科学院北京生命科学研究院赵方庆教授团队在Nature Biotechnology杂志上发表了题为Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long 的文章,开发了一种基于三代纳米孔测序平台(Oxford Nanopore Technologies ,ONT)高效测定circRNA全长转录本的实验和计算方法:利用随机引物对circRNA进行的滚环反转录扩增后,使用三代纳米孔测序技术(ONT)对circRNA的全长序列进行直接测序,并开发了CIRI-long 算法,实现对长测序读段中的circRNA序列进行识别和全长重构。实验结果表明,与传统的circRNA二代测序技术相比,该方法将circRNA检测灵敏度提升了20倍,并可实现对不同长度(<100bp - 5kb)的circRNA全长序列的无偏识别,大幅提升了环形转录本的重构能力,为其功能研究提供了重要的实验方法和计算工具。

赵方庆教授实验室主页(图1)https://bioinfo.biols.ac.cn/

图1.赵方庆教授实验室主页

一、CIRI-long软件介绍

因为circRNAs及其对应的线性信使RNA之间的相似性,利用短读长RNA测序重建circRNA的全长序列一直是具有挑战性的,先前的测序方法无法实现对全长circRNA的高通量检测。赵方庆教授团队开发了一种利用三代纳米孔(ONT)测序技术进行circRNA及其相应的异构体(isoform)富集和全长测序的方案。环状逆转录和片段大小选择能比先前方法从总RNA中多富集出20倍的circRNAs。我们开发了一个使用长度长测序数据(CIRI-long)circRNA鉴定软件,用于重建circRNAs的序列。该算法工作流程利用模拟数据,通过与 Illumina 测序以及定量实时RT-PCR 的比较进行了验证。作者使用CIRI-long来分析成年小鼠脑组织样本,并系统地对circRNAs进行注释分析,包括来自线粒体circRNAs。作者鉴定了一种新的内含子自连接circRNA的特殊的剪接和表达模式。此方法利用了三代纳米孔测序的长读长优势,实现了对全长circRNA序列的无偏重建(图2)。

图2. CIRI-long文章

二、CIRI-long的安装

依赖软件

  • gcc 4.8+clang 3.4+
  • cmake 3.2+
  • python>=3.7
  • samtools=1.9 或更高
  • minimap2

1. 从源代码安装

$ git clone https://github.com/bioinfo-biols/CIRI-long.git CIRI-long
$ cd CIRI-long

# Create virtual environment
$ python3 -m venv venv

# Activate virtualenv
$ source ./venv/bin/activate

# Install CIRI-long
$ make

# Test for installation
$ make test

2. 使用pip安装

个人推荐使用,方便快捷。

$ pip install CIRI-long

三、CIRI-long的使用方法

软件主页https://github.com/bioinfo-biols/CIRI-long

1. 基本用法

CIRI-long两个命令: CIRI-long callCIRI-long collapse,因此整个流程分为两步。

usage: CIRI-long [-h] [-v] {call,collapse} ...

positional arguments:
  {call,collapse}  commands

optional arguments:
  -h, --help       show this help message and exit
  -v, --version    show program's version number and exit

2. 步骤1:circRNA 鉴定

  • 基本用法
#主命令
$ CIRI-long call [-h] [-i READS] [-o DIR] [-r REF] [-p PREFIX] [-a GTF] [--canonical] [-t INT] [--debug]

optional arguments:
  -h, --help            show this help message and exit  #帮助文档
  -i READS, --in READS  Input reads.fq.gz  #输入文件
  -o DIR, --out DIR     Output directory, default: ./  #输出文件夹路径
  -r REF, --ref REF     Reference genome FASTA file  #参考基因组ref.fa文件,需要用bwa进行索引
  -p PREFIX, --prefix PREFIX
                        Output sample prefix, (default: CIRI-long)  #输出文件前缀
  -a GTF, --anno GTF    Genome reference gtf, (optional) #基因组注释文件(可选)
  -c CIRC, --circ CIRC  Additional circRNA annotation in bed/gtf format, 
                        (optional)  #以bed/gtf格式输出circRNA注释文件(可选)
  -t INT, --threads INT Number of threads, (default: use all cores)  #线程数
  --debug               Run in debugging mode, (default: False)  #纠错模式运行

注意
参考基因组需要bwa的索引。在运行CIRI-long之前,使用bwa index命令对参考基因组ref.fa文件进行索引。

  • 使用示例
#下载演示数据
$ wget https://github.com/bioinfo-biols/CIRI-long/releases/download/v0.6-alpha/CIRI-long_test_data.tar.gz

#演示数据解压
$ tar zxvf CIRI-long_test_data.tar.gz
$ cd test_data

#使用```bwa index```命令对参考基因组文件进行索引
$ bwa index -a bwtsw mm10_chr12.fa mm10_chr12.fa

#运行CIRI-long鉴定circRNA
$ CIRI-long call -i test_reads.fa \  #输入文件
               -o ./test_call \ #输出路径
               -r mm10_chr12.fa \ #参考基因组
               -p test \ #输出文件前缀
               -a mm10_chr12.gtf \ #基因组注释文件
               -t 8 #使用线程数
  • 输出文件
test_call
├── test.cand_circ.fa  # 主要文件,circRNA序列文件。
├── test.json
├── test.log
├── test.low_confidence.fa  # circRNA序列文件,低置信度。
└── tmp
    ├── ss.idx
    ├── test.ccs.fa
    └── test.raw.fa

# 如果不加 -c 选项,则产生一个文件夹,7个文件
  • 使用非经典剪切信号
    如果想使用其它剪切信号,可以在脚本align.py修改SPLICE_SIGNAL,格式为:{(5’SS, 3’SS): Priority}

默认:

SPLICE_SIGNAL = {
    ('GT', 'AG'): 0,  # U2-type
    ('GC', 'AG'): 1,  # U2-type
    ('AT', 'AC'): 2,  # U12-type
    ('GT', 'AC'): 2,  # U12-type
    ('AT', 'AG'): 2,  # U12-type
}

3. 步骤2:isoform合并(collapose)

  • 基本用法

可以将多个样本的circRNA结果合并。

#主命令
$ CIRI-long collapse [-h] [-i LIST] [-o DIR] [-p PREFIX] [-r REF] [-a GTF] [--canonical] [-t INT] [--debug]

optional arguments:
  -h, --help            show this help message and exit  #帮助文档
  -i LIST, --in LIST    Input list of CIRI-long results  #样本名称和路径的list文件
  -o DIR, --out DIR     Output directory, default: ./  #输出文件夹路径
  -p PREFIX, --prefix PREFIX
                        Output sample prefix, (default: CIRI-long)  #输出文件前缀
  -r REF, --ref REF     Reference genome FASTA file   #参考基因组文件
  -a GTF, --anno GTF    Genome reference gtf, (optional)  #参考基因组注释文件
  -c CIRC, --circ CIRC  Additional circRNA annotation in bed/gtf format,
                        (optional) #以bed/gtf格式输出circRNA注释文件(可选)
  -t INT, --threads INT
                        Number of threads, (default: use all cores)   #线程数
  --debug               Run in debugging mode, (default: False)  #纠错模式运行

需要先创建一个想要合并样本(*.cand_circ.fa)的名称和路径的list文本文件,以空格分隔。

#list 文件内容
sample1_name /path/to/sample1/cand_circ.fa
sample2_name /path/to/sample2/cand_circ.fa
  • 使用示例

创建一个名为test.list文本文件:

test ./test_call/test.cand_circ.fa

运行CIRI-long collapse合并一个或多个样本结果。

 $ CIRI-long collapse -i ./test.lst \  #输入文件
                    -o ./test_collpase \  #输出文件夹路径
                    -p test \  #文件前缀
                    -r ./mm10_chr12.fa \   #参考基因组
                    -a ./mm10_chr12.gtf \  #参考基因组注释文件
                    -t 8   #线程
  • 输出文件
test_collpase
├── test_collpase.expression
├── test_collpase.isoforms
├── test_collpase.info
├── test_collpase.log
├── test_collpase.reads
└── tmp
    ├── ss.idx
    └── test_collpase.corrected.pkl

# 如果不加 -c 选项,则产生一个文件夹,6个文件
  • 输出文件格式

1)主要输出文件,GTF格式文件(test_collpase.info),包含所有circRNA的详细信息和circRNA反向剪切区域的注释列。

名称 描述
1 chrom 染色体位置 chromosome/contig name ---- 染色体或contig名称
2 source 来源 CIRI-long
3 type 类型 circRNA
4 start 起始 5' back-spliced junction site ---- 5'端反向剪切位点
5 end 结束 3' back-spliced junction site ---- 3'端反向剪切位点
6 score 得分 Number of total supported reads ---- 支持reads数
7 strand 链 strand information ---- 链信息
8 . .
9 attributes 特性 attributes seperated by semicolon ---- 分号分隔的属性

属性列包含了几个预先定义的关键词及其赋值:

key关键词 description描述
circ_id circRNA的ID name of circRNA ---- circRNA名称
splice_site 剪切位点 splicing signal of candidate circRNAs and numbers indicating shifted bases of aligned and annotated splice site. (e.g. AG-GT | 0-5) 候选circRNA剪切信号和实际剪切位点和注释的偏差碱基数
equivalent_seq 等同序列 equivalent sequence of splice site ---- 同一个剪切位点对应的其它circRNA序列
circ_type circ类型 circRNA types: exon/intron/intergenic ---- circRNA类型:外显子/内含子/基因间区
circ_len circ长度 length of the major isoform of circRNA ---- circRNA主要异构体的长度
isoform 异构体 structure of isoforms, isoforms are seperated by "|" and circular exons are seperated by "," (e.g. 11627815-111627914,111628190-111628302|11627815-111628302) ---- circRNA异构体的位置长度信息
gene_id 基因ID ensemble id of host gene ---- 基因的ensemble ID
gene_name 基因名称 HGNC symbol of host gene ---- 基因的名称
gene_type 基因类型 type of host gene in the annotation gtf file ---- 基因的类型

2)表达矩阵

test_collpase.expression: 包含所有样本中circRNA的表达水平,tsv文件格式。

test_collpase.isoforms:包含所有样本中每个circRNA异构体(isoform)使用指数(index),tsv文件格式。

isoform使用指数公式

Isoform usage index = Isoform_reads(某个异构体-isoform的数量) / Sum of all isoforms from the same BSJ (共享同一个反向剪切位点的所有异构体-isoform总和)

4. 步骤3:输出文件可视化

从版本v1.1.0以后,CIRI-long包含misc/conver_bed.py 脚本,用户可以使用此脚本将 circRNA.info(gtf格式)转化为.bed格式,此.bed文件可以利用IGVJbrowse2软件进行可视化。具体转化代码如下:

$ python3 misc/convert_bed.py collapse_out/sample.info sample_circ.bed

四、参考文献

  1. 专家点评 | 基于纳米孔测序的环形RNA识别和重建新技术
  2. Chen L-L. The Expanding Regulatory Mechanisms and Cellular Functions of Circular RNAs. Nature Reviews. Molecular Cell Biology, 2020.
  3. Zheng Y, Ji P, Chen S, et al. Reconstruction of Full-Length Circular RNAs Enables Isoform-Level Quantification. Genome Medicine, 2019, 11(1): 4. Xin R, Gao Y, Gao Y, et al. IsoCirc Catalogs Full-Length Circular RNA Isoforms in Human Transcriptomes. Nature Communications, 2021, 12(1): 266.
  4. Zhang, J., Hou, L., Zuo, Z., Ji, P., Zhang, X., Xue, Y., & Zhao, F. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long. Nature Biotechnology. (2021).
  5. CIRI-long 使用文档: https://ciri-cookbook.readthedocs.io/en/latest
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容