关键词:基因表达差异分析、Differential Expression Genes、设计矩阵、Design Matrix、比较矩阵、Contrast Matrix
本文参考自C.W Law等人的方法文章:A guide to creating design matrices for gene expression experiments。不是完整翻译!查缺补漏请参考:
Law CW, Zeglinski K, Dong X et al. A guide to creating design matrices for gene expression experiments [version 1; peer review: 2 approved]. F1000Research 2020, 9:1444 (https://doi.org/10.12688/f1000research.27893.1)
文章概述:
基因组数据,如RNA-seq,的差异表达分析使用线性模型来确定基因表达变化的大小和方向。对于RNA-seq,已存在一些软件包和工作流程。然而,在分析过程中有两个关键步骤可能会成为许多人的绊脚石——通过设计矩阵(Design matrices)建立适当的模型以及通过对比矩阵(Contrast matrices)设置感兴趣的比较。目前并不存在一个普适的设计矩阵和对比矩阵。本文指导读者建立设计矩阵和对比矩阵的基础。文章从简单的例子开始(例如具有单一解释变量的模型),然后转向更复杂的例子(例如交互作用模型、混合效应模型、更高阶的时间序列和周期性模型),并且为每个案例研究提供代码和图形表示。文章主要是以Limma包的风格为基础。
基础模型
本节概述一些基本模型的一般形式。
1. 协变量回归模型 - Regression model for covariates
开始,让我们考虑两种类型的解释变量(explanatory variables):协变量(covariates)和因子(factors)。协变量包含与实验样本相关的定量测量值。这些可以是个体的年龄或体重,或样品的其他分子或细胞表型,例如从聚合酶链反应(PCR)实验或荧光激活细胞分选(FACS)获得的测量结果。对于协变量,通常感兴趣的是知道响应和协变量之间的变化率,例如“年龄每增加一个单位,特定基因的表达增加/减少多少?”。我们可以用一条直线来模拟或描述这种关系,它采用:
的形式,其中直线由截距和斜率定义(图1)。在这个模型中,年龄协变量取连续的数值,如等。我们通常将这个模型称为回归模型(regression model),其中斜率表示变化率,或者协变量每增加一个单位,预期基因表达增加/减少多少。直线的轴截距和斜率或(和)称为模型参数。参数的真实值是未知的,但在建模过程中可以估计。模型参数的正估计值表明解释变量对基因表达具有正影响(斜率增加),而负值表明解释变量对基因表达具有负影响(斜率减小)。在某些情况下,可以将年龄协变量转换为因子,将较小的值归类为“young”,将较大的值归类为“mature”,并使用下面描述的模型。
2. 因子变量均值模型 - Means model for factors
因子是与实验中的样本相关联的分类变量(categorical variables)或分类器(classifiers)。它们通常分为生物学性质的(例如disease status, genotype, treatment, cell-type)和技术性质的(experiment time, sample batch, handling technician, sequencing lane)。因子中的唯一值(unique values)称为Levels(水平)。例如,作为因子的基因型可包含两个Level,“wildtype”和“mutant.”。在此,通常感兴趣的是确定该因子每个Level基因表达的期望值或者平均值。基因表达和因子之间的关系可以用:
的形式描述或建模,其中代表野生型的平均基因表达,代表突变体的平均基因表达(图1)。与协变量年龄可以取任何非负数值不同,基因型Level只能取0或1的数值。例如,当确定wildtype组的期望表达时,wildtype等于1(mutant等于0),使得:
类似地,当确定mutant组的预期表达时,mutant等于1(wildtype等于0),使得:
注意,wildtype和mutant“轮流”取0和1值。这是因为将样本的分类wildtype和mutant是相互排斥的,样本不能同时为wildtype和mutant,或者既不是wildtype也不是mutant。该模型将期望或者平均基因表达估计为或,其中为wildtype中表达值的平均值,为mutant表达值的平均值。换句话说,(或模型参数)估计为基因型因子中每个Level的平均值,如图1中不同的实线所示。图1中的每条水平线都是由其y轴截距(斜率为0)定义的,它们本身就是回归模型。然而,由于模型参数表示组平均值,因此我们具体地将这种类型的模型称为均值模型。这也使我们能够将这些模型与应用于协变量的一般回归模型(y轴截距和斜率均可以为非零)区分开来。如对协变量的描述,模型参数的真实值未知,但可估计。虽然每个因子Level的期望表达值是信息性的,但通常关键关注的是Level之间的表达差异,例如,“wildtype和mutant之间的表达差异是什么?"。Level间的差异使用参数的线性组合(一种奇特的说法,即为每个参数乘以一个常数)来计算,也就是对比(contrasts)。例如,对比为计算,即wildtype和mutant之间的平均值差异。
3. 因子变量均值参考模型 - Mean-reference model for factors
均值模型的另一种参数化是直接计算wildtype和mutant之间的基因表达差异。它通过使用其中一个Level作为参考进行操作。这样的模型被参数化用于参考水平(reference level,例如wildtype)的平均表达,而其余Level相对于reference level被参数化(例如wildtype和mutant之间的差异)。基因表达和基因型之间的关系可以用下面的形式建模:
其中代表wildtype型的基因表达均值,是mutant型和wildtype型均值之间的差异(图1)。在此,当确定wildtype组的期望基因表达时,式子中的mutant取0,使得wildtype型的表达为:
另一方面,当确定mutant组的期望表达时,mutant等于1,使得突变体的表达为:
wildtype型的期望基因表达直接由第一个模型参数表示,并在图1中以实线表示。而mutant的期望基因表达计算为两个参数的总和,并在图1中以虚线表示。与均值模型一样,这里演示的模型本身也是一个回归模型。然而,我们将此模型特别称为均值参考模型,以将其与我们用于协变量解释变量的一般模型形式区分开来。均值模型和均值参考模型是参数化不同的等效模型,模型的形式不同,但从两个模型中获得wildtype型和mutant型的基因期望表达值相等。
基因表达相关分析设计矩阵指南(Ⅱ)会更新介绍各种解释变量的模型