pyscenic | 单细胞转录因子分析,原理图文详解

pyscenic做为scenicpython版本,相比R版本实现了分析速度上的巨大提升,尤其是最耗时的共表达网络构建步骤。实测时间如下,数据集1 (4257 cell x 36601 gene),10 cores :grn 网络构建2小时;ctx 网络纯化16分钟;aucell 细胞活性1分钟。另外,数据集2 (45000 cell x 33469 gene),三个步骤的耗时分别为4小时、20分钟、5分钟。

  从上面的流程示意图可知,整个转录因子分析步骤分成Co-expressionMotif-discoveryCell-scoring,分别对应pyscenic软件的三个子命令grnctxaucell

RcisTarget数据库文件下载链接:

测试数据来自《Single-cell RNA sequencing highlights the role of inflammatory cancer-associated fibroblasts in bladder urothelial carcinoma》,从原始数据出发,降维聚类分群后,使用fibo细胞亚群做转录因子分析。

1、grn
  输入表达矩阵和转录因子列表,软件基于共表达构建转录因子与潜在靶基因的调控网络。构建网络的算法可以选择GENIE3GRNBoot2 (默认参数),网络构建涉及随机过程,如果想要复盘时保持结果一致可以设置随机种子。

  另外,表达矩阵的格式可以接受csvloom,如果是csv (rows=cells x columns=genes) 则需要参数--transpose。表达矩阵在整个过程都有用到,为了方便可以使用loom格式。

pyscenic grn --seed 21 \
             --num_workers 10 \
             --method grnboost2 \
             --output fibo_grn.tsv fibo_count.loom allTFs_hg38.txt

2、ctx
  上一步得到了初始的调控网络,这一步基于motif和TF的关系以及motif对基因调控潜能的排序来修剪初始网络。首先,将motif注释到TF;接着,对motif调控的基因排序(feather格式的文件),如果调控网络里面出现靶基因则折线上升,如此就会形成下图所示的曲线图,默认选择所有基因的前5%处 (标虚线的地方) 曲线下的面积计算AUC值,再接着计算一个标准化的AUC值做为NES,默认过滤阈值为3.0;最后,根据三种方式进一步修剪网络:1. thresholds 根据阈值选择motif调控基因排序的前百分比的靶基因,2. top_n_targets 每个TF保留前N个靶基因,3. top_n_regulators 每个靶基因保留前N个TF。此时,得到的TF与靶基因的调控网络叫做regulon (调控子),其中保留的靶基因上游含有motif直接结合的位点。

  其实,不难看出这一步包含的过程比较繁琐,经过各种修剪获得最终的网络。所以,这一步相当重要,可以适当调整阈值得到符合实际需求的网络。提示:这一步提到的实现过程为个人理解。

feather=hg38_refseq-r80_10kb_up_and_down_tss.mc9nr.genes_vs_motifs.rankings.feather
fname=motifs-v9-nr.hgnc-m0.001-o0.0.tbl

pyscenic ctx --annotations_fname $fname \
             --expression_mtx_fname fibo_count.loom \
             --mode dask_multiprocessing \
             --mask_dropouts \
             --num_workers 10 \
             --output fibo_ctx.gmt fibo_grn.tsv $feather

3、aucell
  最后,评估每个regulon在所有细胞里面的活性,富集方法与上面的motif富集相似。需要注意的是该步骤也有随机种子参数,如果想保证后面复现结果最好设置一下参数。

pyscenic aucell --seed 21 \ 
                --num_workers 10 \
                --output fibo_aucell.csv fibo_count.loom fibo_ctx.gmt

  到此,pyscenic流程就结束了,后面的工作就是基于regulon活性矩阵探索数据了。当然,也可以将活性矩阵二值化,这样每个regulon在细胞中只有onoff两种状态,可以使用R包AUCell来完成。

library(AUCell)
library(reshape2)

auc <- read.table('fibo_aucell.csv',header=T,row.names=1,sep=',',stringsAsFactors=F,check.names=F)
auc <- t(auc)
rownames(auc) <- gsub(',','', rownames(auc))
auc[1:3, 1:5]
          case1_AAACCTGGTAGTACCT-1 case1_AAAGCAAAGCCTTGAT-1
AHR(+)                   0.0680935               0.07413331
ARID3A(+)                0.1266152               0.11878014
ARNT2(+)                 0.0000000               0.00000000
          case1_AAAGTAGGTCCATCCT-1 case1_AAATGCCGTTCCACTC-1
AHR(+)                  0.07159951               0.07028004
ARID3A(+)               0.05228222               0.09272742
ARNT2(+)                0.00000000               0.00428051
          case1_AACTCCCAGTAGTGCG-1
AHR(+)                0.0655522976
ARID3A(+)             0.0814689810
ARNT2(+)              0.0004553734

cells_assignment <- AUCell_exploreThresholds(auc, plotHist=F, assignCells=T)
thresholds <- getThresholdSelected(cells_assignment)
regulonsCells <- setNames(lapply(names(thresholds), 
                                 function(x) {
                                   trh <- thresholds[x]
                                   names(which(auc[x,]>trh))
                                 }),names(thresholds))

regulonActivity <- melt(regulonsCells)
binaryRegulonActivity <- t(table(regulonActivity[,1], regulonActivity[,2]))
binaryRegulonActivity[1:3, 1:5]
            case1_AAACCTGAGACAGAGA-1 case1_AAACCTGGTAGTACCT-1
  ARID3A(+)                        0                        0
  ARNT2(+)                         0                        0
  ARNTL(+)                         0                        0

            case1_AAAGCAAAGCCTTGAT-1 case1_AAAGTAGCACAACTGT-1
  ARID3A(+)                        0                        0
  ARNT2(+)                         0                        0
  ARNTL(+)                         0                        0

            case1_AAAGTAGGTCCATCCT-1
  ARID3A(+)                        0
  ARNT2(+)                         0
  ARNTL(+)                         0

  最后的最后,展示一下重现文章的结果 (右边来自文章),虽然缺失两个转录因子,可能是前期数据处理不同导致,但是其余的转录因子在两个细胞亚群里面的趋势与文章一致。


往期回顾

一网打尽scRNA矩阵格式读取和转化(h5 h5ad loom)
ggplot2 | 开发自己的画图函数
R包安装的4种姿势
clusterProfiler: No gene can be mapped | 怎么破?
R语言的碎碎念

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容