文献阅读 NBT:通过整合bulk和single-cell测序数据识别表型相关亚群

介绍一篇文献:Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data,2021年发表于Nature Biotechnology,DOI号:10.1038/s41587-021-01091-3。算法已经写成了R软件包,放在GitHub上供使用:https://github.com/sunduanchen/Scissor

要从单细胞数据中识别关键亚群,标准方法是执行无监督聚类来定义细胞群,检查每个细胞群的marker基因,并在已知的细胞类型和通路中评估marker基因的富集情况,以计算每个细胞群的重要性。然而,识别驱动表型(如疾病阶段、肿瘤转移、治疗反应和生存结果)的细胞亚群具有不可缺少的重要性,这有利于细胞类型靶向治疗和预后生物标志物的发现。大多数单细胞实验涉及不到20个患者样本,缺乏统计功效来识别驱动表型的细胞亚群。

有价值的临床表型信息可以从TCGA等大型项目中获取。因此可利用这些表型信息来指导对单细胞数据的细胞亚群识别。本研究提出了Single-Cell Identification of Subpopulations with bulk Sample phenOtype coRrelation (Scissor) 算法,通过利用bulk数据和对应表型信息,该算法自动从单细胞数据中选择与表型差异最有关联性的细胞亚群。

1. 概述

为了使用bulk数据和表型信息来协助单细胞数据分析,作者开发了一种算法Scissor,从单细胞数据中识别与给定表型相关度最高的细胞亚群。 简而言之,Scissor的三个数据源是单细胞表达矩阵bulk表达矩阵感兴趣的表型。每个bulk样本的表型注释可以是一个连续型因变量、二元变量或临床生存数据

Scissor的关键步骤是量化单细胞数据和bulk数据之间的相似性,如每对细胞和bulk样本的皮尔森相关性。之后Scissor优化了相关性矩阵与样本表型的回归模型。回归模型的选择取决于输入表型的类型,例如,连续型变量—线性回归,二分类变量—logistic回归,临床生存数据—Cox回归。因为驱动感兴趣表型的细胞往往是一个小子集,对回归模型施加稀疏惩罚和图正则化,以高置信度选择对给定表型具有重要性的相似细胞。根据估计的回归系数的符号,系数非零的细胞可表示为Scissor阳性细胞(Scissor+)和Scissor阴性细胞(Scissor−),它们分别与感兴趣的表型呈正相关和负相关。系数为零的细胞表示为背景细胞。此外,为了控制单细胞和bulk数据之间的假关联,作者设计了一个可靠显著性检验,以确定所选数据是否适合表型-细胞关联(基于置换检验)。

这里用mn分别表示单细胞数据的细胞数和bulk样本数,样本表型记为Y,构建皮尔森关联矩阵S=(S_{ij})_{n×m},量化单细胞数据和bulk数据之间的相似性。(此处巧妙地将bulk数据和单细胞数据相关联,生成的n×m关联矩阵,将样本n转化为观测,每个观测对应表型标签Ym个细胞则可看作m个特征)。进而建立一个关联矩阵S与表型Y之间的回归模型:

β是细胞的系数向量,l(β)是针对不同类型Y选择的对数似然函数,同时加了两项惩罚项,一个是常规的L1正则,有利于参数稀疏化,使对于给定表型识别到的细胞具有高置信度,一个是受Seurat启发,基于细胞-细胞相似性网络G,计算得到的拉普拉斯惩罚项。其中αλ是模型超参数。

2. 在模拟数据中捕获表型相关的细胞亚群

利用软件模拟不同表型的单细胞细胞亚群数据和对应bulk数据。在模拟时,存在两种表型特异性细胞亚群间有真实差异表达基因,但标准单细胞分析流程却因为两种亚群被聚在一个cluster中而无法识别的情况。此时利用Scissor进行识别,可以发挥很好的效果,因为Scissor不需要对单细胞数据进行任何无监督聚类,从而避免了对细胞聚类数量或聚类分辨率的主观决定。

3. 在肺癌数据中确定肿瘤和正常表型的亚群。

以577个TCGA LUAD bulk样本指导Scissor的分析,表型是二元的,1代表肿瘤样本,0代表正常样本。对共29,888个细胞的单细胞数据进行识别,得到361 Scissor+细胞,534 Scissor−细胞。

4. 发现与较差生存相关的缺氧亚群,与TP53突变相关的细胞亚群

癌症细胞是异质性的,包括癌症干细胞等亚群,众所周知,这些细胞会推动肿瘤进展和不良预后。以471个TCGA LUAD匹配生存信息的bulk样本指导Scissor的分析,从与上述同一个肺癌单细胞数据集的4102个癌细胞中识别侵袭性癌细胞亚群。得到201个Scissor+ 细胞,关联于更差的预后,Scissor+细胞与其他细胞进行差异表达分析,发现23个与缺氧相关的基因过表达,功能富集分析证明了这一点。

以498个匹配了TP53突变信息的TCGA LUAD bulk样本指导Scissor的分析,得到414个Scissor+细胞和318个Scissor−细胞。对两组细胞进行差异表达分析,得到在Scissor+细胞中,337个基因上调,14个基因下调。上调的基因包括E2F靶基因和细胞周期进程相关的基因,如AURKA, CDK1, CCNB2和TOP2A,通过主要调控因子分析,得到转录因子FOXM1和MYC上调,而它们在正常的TP53野生型状态下处于抑制状态,FOXM1还与不良的预后相关。下调的基因包括HLA-A, B2M和CD74

5. 鉴定与免疫治疗相关的T细胞亚群

为了理解免疫检查点阻断响应的机制,作者对黑色素瘤单细胞数据集进行了Scissor分析,以识别与免疫检查点阻断响应的T细胞亚群。利用70个有免疫治疗反应信息的bulk样本,对单细胞数据1,894个T细胞进行识别,得到105个T cells作为Scissor+细胞,高表达与记忆T细胞相关的CCR7和SELL及生存相关的IL7R和转录因子TCF7,低表达抑制性基因HAVCR2, LAG3, PDCD1和CTLA4及MHC II类基因HLA-DRB5, HLA-DRB1, HLA-DPA1, HLA-DQB2和HLA-DRB6这些结果表明,单细胞数据的Scissor分析能够识别与特定表型相关的亚群,即使单细胞数据本身没有这样的表型信息。在非癌症数据中,Scissor的有效性也得到验证。

最后的最后,按惯例重温一下重点和摘要:

One of the advantages is that Scissor does not require any unsupervised clustering on single-cell data, which avoids subjective decisions of cell cluster numbers or clustering resolution. Most importantly, Scissor provides a flexible framework to integrate various external phenotypes in bulk data to guide single-cell data analysis, enabling hypothesis-free identification of clinically and biologically relevant cell subpopulations.

参考:
https://sunduanchen.github.io/Scissor/vignettes/Scissor_Tutorial.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容