基因表达相关分析设计矩阵指南(Ⅰ)

关键词:基因表达差异分析、Differential Expression Genes、设计矩阵、Design Matrix、比较矩阵、Contrast Matrix

本文参考自C.W Law等人的方法文章:A guide to creating design matrices for gene expression experiments。不是完整翻译!查缺补漏请参考:

Law CW, Zeglinski K, Dong X et al. A guide to creating design matrices for gene expression experiments [version 1; peer review: 2 approved]. F1000Research 2020, 9:1444 (https://doi.org/10.12688/f1000research.27893.1)

文章概述:

基因组数据,如RNA-seq,的差异表达分析使用线性模型来确定基因表达变化的大小和方向。对于RNA-seq,已存在一些软件包和工作流程。然而,在分析过程中有两个关键步骤可能会成为许多人的绊脚石——通过设计矩阵(Design matrices)建立适当的模型以及通过对比矩阵(Contrast matrices)设置感兴趣的比较。目前并不存在一个普适的设计矩阵和对比矩阵。本文指导读者建立设计矩阵和对比矩阵的基础。文章从简单的例子开始(例如具有单一解释变量的模型),然后转向更复杂的例子(例如交互作用模型、混合效应模型、更高阶的时间序列和周期性模型),并且为每个案例研究提供代码和图形表示。文章主要是以Limma包的风格为基础。

基础模型

本节概述一些基本模型的一般形式。

1. 协变量回归模型 - Regression model for covariates

开始,让我们考虑两种类型的解释变量(explanatory variables):协变量(covariates)和因子(factors)。协变量包含与实验样本相关的定量测量值。这些可以是个体的年龄或体重,或样品的其他分子或细胞表型,例如从聚合酶链反应(PCR)实验或荧光激活细胞分选(FACS)获得的测量结果。对于协变量,通常感兴趣的是知道响应和协变量之间的变化率,例如“年龄每增加一个单位,特定基因的表达增加/减少多少?”。我们可以用一条直线来模拟或描述这种关系,它采用:
\mathrm{expression}=\beta_0 + \beta_1\mathrm{age}的形式,其中直线由y截距\beta_0和斜率\beta_1定义(图1)。在这个模型中,年龄协变量取连续的数值,如0.8, 1.3, 2.0, 5.6等。我们通常将这个模型称为回归模型(regression model),其中斜率表示变化率,或者协变量每增加一个单位,预期基因表达增加/减少多少。直线的y轴截距和斜率或\beta\beta_0\beta_1)称为模型参数。参数的真实值是未知的,但在建模过程中可以估计。模型参数的正估计值表明解释变量对基因表达具有正影响(斜率增加),而负值表明解释变量对基因表达具有负影响(斜率减小)。在某些情况下,可以将年龄协变量转换为因子,将较小的值归类为“young”,将较大的值归类为“mature”,并使用下面描述的模型。

图1 协变量型和因子型解释变量的基础模型

2. 因子变量均值模型 - Means model for factors

因子是与实验中的样本相关联的分类变量(categorical variables)或分类器(classifiers)。它们通常分为生物学性质的(例如disease status, genotype, treatment, cell-type)和技术性质的(experiment time, sample batch, handling technician, sequencing lane)。因子中的唯一值(unique values)称为Levels(水平)。例如,作为因子的基因型可包含两个Level,“wildtype”和“mutant.”。在此,通常感兴趣的是确定该因子每个Level基因表达的期望值或者平均值。基因表达和因子之间的关系可以用:
\mathrm{expression}=\beta_1\mathrm{wildtype} + \beta_2\mathrm{mutant}的形式描述或建模,其中\beta_1代表野生型的平均基因表达,\beta_2代表突变体的平均基因表达(图1)。与协变量年龄可以取任何非负数值不同,基因型Level只能取0或1的数值。例如,当确定wildtype组的期望表达时,wildtype等于1(mutant等于0),使得:
\mathrm{expression}=\beta_1\qquad\mathrm{for\ wildtype}类似地,当确定mutant组的预期表达时,mutant等于1(wildtype等于0),使得:
\mathrm{expression}=\beta_2\qquad\mathrm{for\ mutant}注意,wildtype和mutant“轮流”取0和1值。这是因为将样本的分类wildtype和mutant是相互排斥的,样本不能同时为wildtype和mutant,或者既不是wildtype也不是mutant。该模型将期望或者平均基因表达估计为\beta_1\beta_2,其中\beta_1为wildtype中表达值的平均值,\beta_2为mutant表达值的平均值。换句话说,\beta(或模型参数)估计为基因型因子中每个Level的平均值,如图1中不同的实线所示。图1中的每条水平线都是由其y轴截距(斜率为0)定义的,它们本身就是回归模型。然而,由于模型参数表示组平均值,因此我们具体地将这种类型的模型称为均值模型。这也使我们能够将这些模型与应用于协变量的一般回归模型(y轴截距和斜率均可以为非零)区分开来。如对协变量的描述,模型参数的真实值未知,但可估计。虽然每个因子Level的期望表达值是信息性的,但通常关键关注的是Level之间的表达差异,例如,“wildtype和mutant之间的表达差异是什么?"。Level间的差异使用参数的线性组合(一种奇特的说法,即为每个参数乘以一个常数)来计算,也就是对比(contrasts)。例如,对比为(1,-1)计算\beta_1-\beta_2,即wildtype和mutant之间的平均值差异。

3. 因子变量均值参考模型 - Mean-reference model for factors

均值模型的另一种参数化是直接计算wildtype和mutant之间的基因表达差异。它通过使用其中一个Level作为参考进行操作。这样的模型被参数化用于参考水平(reference level,例如wildtype)的平均表达,而其余Level相对于reference level被参数化(例如wildtype和mutant之间的差异)。基因表达和基因型之间的关系可以用下面的形式建模:
\mathrm{expression}=\beta_1\ + \beta_2\mathrm{mutant}其中\beta_1代表wildtype型的基因表达均值,\beta_2是mutant型和wildtype型均值之间的差异(图1)。在此,当确定wildtype组的期望基因表达时,式子中的mutant取0,使得wildtype型的表达为:
\mathrm{expression}=\beta_1\qquad\mathrm{for\ wildtype}另一方面,当确定mutant组的期望表达时,mutant等于1,使得突变体的表达为:
\mathrm{expression}=\beta_1+\beta_2\qquad\mathrm{for\ mutant}wildtype型的期望基因表达直接由第一个模型参数\beta_1表示,并在图1中以实线表示。而mutant的期望基因表达计算为两个参数的总和,并在图1中以虚线表示。与均值模型一样,这里演示的模型本身也是一个回归模型。然而,我们将此模型特别称为均值参考模型,以将其与我们用于协变量解释变量的一般模型形式区分开来。均值模型和均值参考模型是参数化不同的等效模型,模型的形式不同,但从两个模型中获得wildtype型和mutant型的基因期望表达值相等。




基因表达相关分析设计矩阵指南(Ⅱ)会更新介绍各种解释变量的模型\cdots\cdots

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容