原文: Computational deconvolution of transcriptomics data from mixed cell populations,Bioinformatics,2018 Jun 1;34(11):1969-1979.
doi: 10.1093/bioinformatics/bty019
概述
这是2018年新发表在Bioinformatics的一篇综述,分别从以下9个方面对混合细胞类型的转录组数据去卷积的相关问题和方法进行总结和讨论。
- 去卷积问题的定义
- 解决去卷积问题的数学方法
- 选择特定细胞类型的标记基因的方法
- 影响去卷积效果的因素
- 低比例的细胞类型也可以被检测的方法
- 评估去卷积效果
- 传统线性模型的局限性
- 网页版的去卷积方法
- 其他数据类型的去卷积方法
去卷积问题的定义
去卷积的目的是从bulk-sample 中推测不同单一细胞类型的表达谱。它的原理是假设每种细胞类型在不同样品中具有相似的表达水平,可以将异质样品中给定基因的表达模型化为混合物中存在的每种细胞类型的表达值的加权和(=线性组合)。
有点绕口,以数学形式表示如下:
T = 异质样品的表达值
C = 特定细胞的表达值
P = 不同细胞的混合比例
T = C·P
根据已知的数据类型,去卷积有不同的形式:
T = matrix containing the observed (measured) expression values from heterogeneous (tissue/tumor) samples (M genes, N samples);
C = matrix consisting of cell type- specific average expression values (M genes, K cell types);
P = matrix containing the mixing proportions (=relative composition) (K cell types, N samples)
- 只有T是已知, C和P都是预测的(深灰色箭头所示);
- T和C是已知的,P是预测的 (粉色虚线箭头和灰色热图所示);
这种情况是通过T和C以富集值(代替细胞比例)表示组织异质性的相对评估,如ESTIMATE和xCell等工具包。细胞比例值必须是0-100之间的正值,可以直接解释;富集值是无限的,有时是负值,使得它们更难解释。 - T和P是已知,C是预测的(虚线蓝色箭头所示)
解决去卷积问题的数学方法
- 最常用的一组方法称为普通最小二乘法(OLS),线性最小二乘法(LLS)或简单最小二乘法(LS),其目标是最小化平方和。
- 第二组方法是线性核(n-SVR)支持向量回归方法,包括CIBERSORT 和 ImmuCC。
- 第三组无监督降维,如主成分分析(PCA)。
- 第四组完全无监督方法,包括无监督的非负矩阵分解(NMF或NNMF)和不同的贝叶斯方法。
选择特定细胞类型的标记基因的方法
标记基因选择一是基于这个基因的在特定细胞中的表达显著高于其他类型的细胞,另一个是根据差异基因,即在某个类型的细胞中表达,在其他细胞类型不表达。
鉴定标记基因的方法:
- HECS (highly expressed, cell specific)基因数据库包含来自于芯片的84个人类细胞和96个小鼠细胞和组织。(available at http://www.influenza- x.org/~jshoemaker/cten/f/HECS%20database.zip )
- The F- statistic (measure of their fit in the multiple linear regression model) (Wang et al., 2010),
- the Gini index (Zhang et al., 2017),
- the Jensen-Shan- non divergence (Cabili et al., 2011) ,
- the components from PCA, ICA or NMF analyses (Zinovyev et al., 2013)
- CellMapper (Nelms et al., 2016), Nanodissection 1.0 (Ju et al., 2013), - - UNDO (Wang et al., 2015)
- CAM (Wang et al., 2016). Assuming
影响去卷积效果的因素
基于监督去卷积的方法,依赖于参考集,样本间、样本内本身的异质性将会对结果产生影响,除此之外还有其他因素,例如:
- 前处理和标准化
- 对数与线性
对芯片数据取对数后会破坏线性假设,进而影响去卷积效果;RNA-seq数据的去卷积也需要符合线性假设,TPM , RSEM 或者Kallisto 可以得到更精确的细胞比例。 - 多重共线性:混合物中相关细胞类型的存在
- 矩阵的条件数目
- 细胞周期
- ...
低比例的细胞类型也可以被检测的方法
PERT (Qiao et al., 2012) 和 DeconRNAseq (Gong and Szustakowski, 2013) 可以检测到的细胞比例最小可以至2% ,CIBERSORT (Newman et al., 2015) 可以至 0.5% 。
评估去卷积效果
- 原位杂交(in-situ hybridization,ISH) (Kuhn et al., 2011, 2012) 或免疫组织染色 (IHC) (Ju et al., 2013)
- 细胞分选 (Qiao et al., 2012);
- 显微镜和FACS分析相结合 (Wang et al., 2016);
- 相关性分析,即实验方法细胞计数的结果与计算方法预计结果相比 (Li et al., 2016; Şenbabaoğlu et al., 2016),(Şenbabaoğlu et al., 2016).
传统线性模型的局限性
- 混合物中应该存在的所有细胞类型的参考概况或每种细胞类型至少有一个标记;
- 由于真实的组成是未知的,一些细胞类型可能被忽略;
- 一些方法假设给定的异质性组织内的细胞类型是稳定组成的;
- 大多数方法没有考虑到这样一个事实,即参考表达谱通常受微环境或发育影响的干扰,或者只是在不同的条件下或不同的技术或平台下获得;
去卷积的网页版工具
CellPred (Wang et al., 2010):
用Affymetrix microarray 数据对细胞比例进行估计
http://webarraydb.org/webarray/index.html.TIMER (Li et al., 2016):
包含B cells, CD4+, CD8+ T cells, macrophages, neutrophils 和 dendritic cells 的细胞比例,数据来源于TCGA 32种癌症类型,11,509个样本。
https://cistrome.shinyapps.io/timer/
https://github.com/hanfeisun/TIMERDSection (Erkkilä et al., 2010):
使用微阵列数据估计特异性细胞类型表达谱,校正细胞类型比例和差异基因表达。
http://infor- matics.systemsbiology.net/DSection/DCQ (Altboum et al., 2014) and CoD (Frishberg et al., 2015)
这两个工具都来自Irit Gat-Viks 实验室,用芯片数据或者RNA-seq数据估计细胞比例。
http://www.dcq.tau.ac.il/
(de- tailed information: http://dcq.tau.ac.il/application.html) ;
http://www.csgi.tau.ac.il/CoD/
(detailed information: http://www.csgi.tau.ac.il/CoD/application.html)ESTIMATE (Yoshihara et al., 2013):
快速获取基质和免疫细胞的相对组成,可用于microarray 和RNA-seq数据。
http://bioinformatics.mdanderson.org/estimate/CIBERSORT (Newman et al., 2015):
以22种白细胞亚型细胞的细胞比例作为参考,用于来自于异质性样本的芯片或者RNA-seq数据。
https://cibersort.stanford.edu/runcibersort.php
其他数据类型的去卷积方法
根据甲基化数据进行去卷积的,目前的方法有:
- EpiDISH (Teschendorff et al., 2017)
- MeDeCom (Lutsik et al., 2017)
- eFORGE (Breeze et al., 2016)
- EDec (Onuchic et al., 2016)
根据拷贝数变异:
- BACOM 2.0 (Fu et al., 2015)
- ABSOLUTE (Carter et al., 2012)
- CloneCNA (Yu et al., 2016)
- CPE (Aran et al., 2015)
公布于 2018— 06.11
第三周 2018— 06.04-06.10