SCENIC: 单细胞RNA-seq数据推断基因调控网络和细胞功能聚类

作者：ahworld
链接：SCENIC | 以single-cell RNA-seq数据推断基因调控网络和细胞功能聚类
)
来源：微信公众号
著作权归作者所有，任何形式的转载都请联系作者。

目前单细胞转录组领域用的比较多的细胞聚类方法大多是直接从基因表达矩阵推断，但是对于多样本合并分析，很多情况下会出现难以解决的批次效应，例如：

有些癌症多样本的聚类结果大多每个样本单独分成一群

对于发育样本，发育前期和后期细胞类型可能存在较大差异，某些样本特异的细胞群，难以判断是批次效应产生的还是真正的生物学效应。

2017年发表在Nature Methods杂志上的SCENIC算法，利用单细胞RNA-seq数据，同时进行基因调控网络重建和细胞状态鉴定，应用于肿瘤和小鼠大脑单细胞图谱数据，提出并证明了顺式调控网络分析能够用于指导转录因子和细胞状态的鉴定。SCENIC通过使用生物学驱动的features自动清除肿瘤样本特异性等批次效应。

基因调控网络

我们要深刻了解SCENIC并应用在我们的项目上就要对基因调控网络(GRN, gene regulatory network)的背景有一些认识。细胞的转录状态来自潜在的基因调控网络，GRN由数量有限的转录因子（TFs）和辅因子相互调节及调节下游靶基因构成。

单细胞转录组分析的最新进展为高分辨率识别转录状态和状态之间的过渡提供了令人兴奋的机会。例如，在分化过程中针对单细胞RNA-seq进行优化的统计和生物信息学方法带来了新的生物学见解。但是，稳定细胞状态下的特异性和强健的（robust）GRN是否能够被确定还尚不清楚。

鉴于在单细胞水平来做这件事情，这可能确实具有挑战性。由于转录爆发和其他来源的基因表达的随机变化，基因表达可能会与TF输入的动力学部分断开（不相关）。目前已经有一些从单细胞RNA-seq数据推断共表达网络的方法发表，但是，这些方法未使用调控序列（regulatory sequence）分析来预测TF与靶基因之间的相互作用。

作者认为，将顺式调控序列与单细胞基因表达连接可以克服缺失（基因表达丰度检测不到）和技术多样性，从而优化细胞状态的发现和表征。鉴于此，作者开发了单细胞调控网络推断和聚类（SCENIC）来绘制GRN，通过评估每个细胞中GRN的活性，来识别稳定的细胞状态。

SCENIC workflow

scenic_1.png

SCENIC workflow 包含3个主要步骤：

用GENIE3（随机森林) 或GRNBoost (Gradient Boosting) 推断转录因子与候选靶基因之间的共表达模块。每个模块包含一个转录因子及其靶基因，纯粹基于共表达。
使用RcisTarget分析每个共表达模块中的基因，以鉴定enriched motifs；仅保留TF motif富集的模块和targets，每个TF及其潜在的直接targets gene被称作一个调节子（regulon）
使用AUCell评估每个细胞中每个regulon的活性，AUCell分数用于生成Regulon活性矩阵，通过为每个regulon设置AUC阈值，可以将该矩阵进行二值化（0|1，on|off），这将确定Regulon在哪些细胞中处于“打开”状态。

使用RcisTarget是SCENIC不同于大多共表达算法的重要区别。由于GENIE3模块仅基于共表达，因此结果可能包含许多误报和间接target，为了鉴定推断的直接结合的靶标基因，使用RcisTarget对每个共表达模块进行顺式调控基序（motif）分析。仅保留具有正确基因上游调节子且显着富集TF motif的模块，并对它们进行修剪以除去缺乏基序支持的间接靶标，这些处理后的模块才称为regulon。

AUCell对regulon活性打分

scenic_2.png

作为SCENIC的一部分，作者开发了AUCell算法来对每个细胞中的每个regulon的活性进行评分。

对于一个给定的regulon，通过比较所有细胞间的AUCell打分值，我们可以识别哪些细胞具有更显著高的regulon活性。通过卡阈值得到的二元活性矩阵使矩阵维数减少（可理解为只有 0|1，on|off），对于下游分析很有用。例如，基于regulon二元活性矩阵的聚类，可以根据某个调控子网络（regulon）的活性来识别细胞群类型和细胞状态。由于regulon是整体评分的，而不是使用单个基因的表达，因此这种方法对于个别基因的dropouts很有效。

scenic_3.png

SCENIC性能评估

作者对SCENIC进行了准确性和鲁棒性评估。

scenic_4.png

SCENIC准确性评估

作者拿成年小鼠大脑的已知细胞类型的scRNA-seq数据集来测试SCENIC，来评估其准确性。

分析了1,046个初始共表达模块中的151个Regulons，这些Regulons包含对应TF的显着富集的motif（占初始TFs的7％）。每个细胞的Regulon活性评分确定了预期的细胞类型（上图d，e）以及每种细胞类型的潜在主调控因子的列表（例如下图中的小胶质细胞网络），细胞聚类的结果比一些专用的单细胞聚类方法(SC3)要准确。

scenic_5.png

SCENIC鲁棒性评估

作者用以下方式分析了小鼠大脑单细胞RNA-seq图谱数据：

全部的细胞
随机选取其中100个细胞
三分之一的测序reads来模拟低深度的数据

SCENIC鉴定出了仅由少量细胞代表的细胞类型（例如，来自小胶质细胞，星形胶质细胞或中间神经元的2至6个细胞；下图）。此外，预测的TFs与细胞类型的关联也与先前已知的一致，并且此准确性优于标准分析流程。

scenic_6.png

为了验证鉴定小鼠interneurons的Dlx1/2调控网络，作者分析了人脑的sNuc-Seq(Single nuclei RNA-Seq)数据集。

scenic_7.png

在人类脑sNuc-Seq数据集上，SCENIC也鉴定出由DLX1/2强烈驱动的interneurons细胞群，该群具有与小鼠相同的motif，并且识别出一组保守的靶标，包括DLX1本身。

scenic_8.png

scenic_9.png

接下来，作者将这种跨物种分析扩展到其他细胞类型。与基于归一化表达的标准聚类（产生强大的物种驱动聚类）不同，SCENIC分析有效地按细胞类型对细胞进行了分组（下图）。这表明网络活性的评分是可靠的（robust），可以用来克服批处理或测序方法等技术影响。

scenic_10.png

上图为：人和小鼠大脑scRNA-seq数据基于GRN活性的联合聚类，彩色标注的TF为人和小鼠中共同鉴定到的regulons

鉴定肿瘤scRNA-seq数据集中的复杂细胞状态

由于肿瘤特异性突变和复杂的基因组畸变，癌细胞状态的鉴定比正常细胞状态更具挑战性。一般的标准聚类会通过表达矩阵将细胞按其肿瘤起源分组（各个样品聚成一类），但SCENIC的结果揭示了不同的图景。

scenic_11.png

以下是作者将SCENIC用在少突胶质细胞瘤（来自6个肿瘤的4,043个细胞）和黑素瘤（来自14个样本的1,252个细胞）的scRNA-seq数据集上的结果。

scenic_12.png

少突胶质细胞瘤

对于少突胶质细胞瘤（oligodendroglioma），在所以肿瘤细胞中鉴定出三种癌细胞状态（上图c-e），每种状态均由预期的TF驱动，包括：

oligodendrocyte-like stat：SOX10/4/8, OLIG1/2, 和 ASCL1
astrocyte-like state：ASCL1， SOX9，NFIB
cycling cells：E2F和FOXM1

此外，作者将扩散映射（Diffusion Maps）应用于二元SCENIC矩阵（上上图）重建了从stem-like到oligodendrocyte-like 和 astrocyte-like分支的分化轨迹。值得注意的是，与正常oligodendrocyte分化相比，此路径代表不同的“轨迹”。

黑素瘤

在黑素瘤（melanoma）数据上观察到了类似的肿瘤效应校正，其中SCENIC识别了跨肿瘤的细胞群。包括一群与少突胶质细胞瘤中类似的TF驱动的周期细胞（例如，E2F1/2/8 和 MYBL2）

Combat和Limma之类的专用批处理效应去除方法，需要预先指定批处理效应的来源；与这些方法相反，SCENIC通过使用生物学驱动的features自动清除肿瘤的效应。

黑色素瘤细胞大致分为两组：

MITFhigh state：典型的扩散状态，以MITF和STAT / IRF为主要regulators；
MITFlow state：WNT5A, LOXL2 和 ZEB1等已知的侵袭状态的markers表达上调

SCENIC在MITFlow state的细胞群下鉴定到了两个新的TFs：

NFATC2 (114 predicted target genes)
NFIB (15 predicted target genes)

NFATC2是JNK/MAPK途径中的转录阻遏物，参与黑色素瘤去分化和免疫逃逸；

NFIB与毛囊和黑素细胞干细胞的干细胞行为有关，它在小细胞肺癌转移过程中起着重要作用。

为了进一步探索NFATC2和NFIB在MITFlow状态下的潜在作用，作者对25个具有不同肿瘤进展的黑色素瘤标本进行了免疫组织化学分析。

作者发现NFIB和NFATC2在前哨淋巴结（sentinel lymph nodes）中表达最高，这与ZEB1表达共定位，这与ZEB1表达共定位，这表明这些markers的表达与最早的转移事件之间存在关系。

scenic_13.png

在A375黑色素瘤细胞系，NFATC2和NFIB的表达很高，当使用siRNA敲除NFATC2时，作者发现NFATC2调节子中的基因被显着上调。这与先前证实的NFATC2作为阻遏物是一致的。此外参与细胞粘附、细胞外基质和几个先前发表的代表黑色素瘤浸润状态调控的基因也被上调。这表明NFATC2确实可能在疾病进展中起重要作用。作为黑色素瘤regulons的第二次验证，作者使用ChIP-seq数据确定了MITF和STAT的预测靶标。

scenic_14.png

SCENIC使用建议

随着单细胞数据集大小的增加，作者建议两种补充方法来扩展网络推断：

取采样数据集的子集来推断出GRN，并在AUCell评分步骤中包括所有细胞
使用更高效的机器学习和大数据处理解决方案，作者应用GRNBoost 梯度增强来代替random-forest regression，这种实现方式大大减少了推断GRN所需的时间，并将为在非常大的数据集上进行网络推断铺平道路。

SCENIC是一种普遍适用的分析scRNA-seq数据的方法，利用TF和顺式调控序列来指导细胞状态的发现。文章的结果表明，GRNs是确定细胞状态的可靠方法，并且scRNA-seq数据非常适合跟踪基因调控过程，在基因调控过程中特定组合的TFs驱动细胞特异性的转录组。

作者开发的pyscenic使用教程请参考：https://pyscenic.readthedocs.io/en/latest/或者查看 pyscenic github

参考

http://scenic.aertslab.org
Aibar S, González-Blas C B, Moerman T, et al. SCENIC: single-cell regulatory network inference and clustering[J]. Nature methods, 2017, 14(11): 1083-1086.

最后编辑于：2020.09.07 11:04:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,230评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,261评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,089评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,542评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,542评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,544评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,922评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,578评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,816评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,576评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,658评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,359评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,920评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,859评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,381评论 2赞 342

SCENIC: 单细胞RNA-seq数据推断基因调控网络和细胞功能聚类

SCENIC: 单细胞RNA-seq数据推断基因调控网络和细胞功能聚类

基因调控网络

SCENIC workflow

AUCell对regulon活性打分

SCENIC性能评估

SCENIC准确性评估

SCENIC鲁棒性评估

鉴定肿瘤scRNA-seq数据集中的复杂细胞状态

少突胶质细胞瘤

黑素瘤

SCENIC使用建议

最新SCENIC文章应用

参考

推荐阅读更多精彩内容