一、基础知识
基因表达(gene expression):是指细胞在生命过程中,把储存在DNA中遗传信息(碱基顺序)经过转录和翻译,转变成具有生物活性的蛋白质分子。生物体内的各种功能蛋白质和酶都是由相应的结构基因编码的。
差异基因表达(differential gene expression):指细胞分化过程中,奢侈基因按一定顺序表达,表达的基因数约占基因总数的5%~10%。也就是说,某些特定奢侈基因表达的结果生成一种类型的分化细胞,另一组奢侈基因表达的结果导致出现另一类型的分化细胞,这就是基因的差别表达。其本质是开放某些基因,关闭某些基因,导致细胞的分化。
——百度百科
(通俗解释:有一群基因叫奢侈基因ABC,一般情况下只有A表达,A表达后生成的一种类型细胞发挥作用,但是现在B也出现表达,并且生成另一种类型的细胞,就产生了不同作用。而B就叫差异表达基因)
二、检测方法
检测基因表达的方法:转录水平(RNA)检测:RT-PCR,real-time PCR,northern blot翻译水平(蛋白)检测:western blot直接(基因)检测:报告基因、融合荧光蛋白等。
注意:RT-PCR是反转录PCR,是半定量方式;real-time PCR(定量即时聚合酶链锁反应)可以精确定量,简写为:Q-PCR/qPCR/rt-qPCR。
三、PCR的简单介绍
PCR:是利用DNA在体外95摄氏度高温时变性会变成单链,低温(经常是60°C左右)时引物(PCR引物为DNA片段)与单链按碱基互补配对的原则结合,再调温度至DNA聚合酶最适反应温度(72°C左右),DNA聚合酶沿着磷酸到五碳糖(5'-3')的方向合成互补链(就是这个酶把这些与单链结合的引物片段像拼图那样连接起来,形成一条新的DNA互补链)。
由变性-退火-延伸三个基本反应步骤构成:
①模板DNA的变性:模板DNA经加热至93℃左右一定时间后,使模板DNA双链或经PCR扩增形成的双链DNA解离,使之成为单链,以便它与引物结合,为下轮反应作准备;
②模板DNA与引物的退火(复性):模板DNA经加热变性成单链后,温度降至55℃左右,引物(PCR引物为DNA片段)与模板DNA单链的互补序列配对结合;
③引物的延伸:DNA模板-引物结合物在72℃、DNA聚合酶(如TaqDNA聚合酶)的作用下,以dNTP(脱氧核糖核苷三磷酸)为反应原料,靶序列为模板,按碱基互补配对与半保留复制原理(子代DNA分子其中的一条链来自亲代DNA ,另一条链是新合成的,这种方式称半保留复制),合成一条新的与模板DNA链互补的半保留复制链,重复循环变性-退火-延伸三过程就可获得更多的“半保留复制链”,而且这种新链又可成为下次循环的模板。每完成一个循环需2~4分钟,2~3小时就能将待扩目的基因扩增放大几百万倍。
实时荧光定量PCR技术:是指在PCR反应体系中加入荧光基团,利用荧光信号积累实时监测整个PCR进程,最后通过标准曲线对未知模板进行定量分析的方法。
四、公共数据库中常见的测序技术
DNA Microarray(微阵列):比较通俗的名字是基因芯片(gene chip),又称寡核苷酸阵列或杂交阵列分析。是DNA微阵列(micorarray)涂在特殊玻璃片上,然后在数平方厘米之面积上安装数千或数万个核酸探针进行测验,经由一次测验,即可提供大量基因序列信息。
1.DNA微阵列(DNA-microarray):检测样本的基因组DNA,作为基因型别鉴定之检测。
2.cDNA 微阵列(cDNA-microarray):或称expression array,将样本中的mRNA转为cDNA(在体外经过逆转录后与RNA互补的DNA链,又称互补或拷贝DNA)后进行检测,作为基因表达程度之检测与比较。
3.miRNA微阵列(miRNA-microarray) :检测miRNA相关的基因调控机制。
4.ChIP-chip:chromatin immunoprecipitation on chip芯片上的染色质免疫沉淀
5.高通量核酸定序芯片:合并特殊PCR反应及微阵列侦测技术转作为基因定序之用。
6.临床检测微管芯片:将低密度微阵列附于特制检验管底部,用以检测特定病原或癌症指标的试剂组。
7.CGH芯片:染色体芯片(array Comparative Genomic Hybridization,aCGH 或称Chromosomal Microarray Analysis,CMA)
8.SNP芯片:可检测基因多型性(Polymorphisms)。
9.基因甲基化芯片 :检测DNA被甲基化修饰程度。
RNA-seq:即转录组测序技术,就是用高通量测序技术进行测序分析,反映出mRNA,smallRNA,non-codingRNA等或者其中一些的表达水平。RNA-Seq可以应用于单细胞基因表达/蛋白质表达/RNA结构的分析;
即分为以下几步:
分离所有mRNA
逆转录mRNA成cDNA
对cDNA测序
比对参考基因组
流程:样品提取总RNA后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物(random hexamers)合成cDNA第一链,并加入缓冲液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二链,经过QiaQuick PCR试剂盒纯化并加 EB缓冲液洗脱经末端修复、加碱基A,加测序接头,再经琼脂糖凝胶电泳回收目的大小片段,并进行PCR扩增,从而完成整个文库制备工作,构建好的文库用Illumina HiSeq2000进行测序(这个流程了解一下就行)。
由上可见,两种方法测序结果是不一样的,所以最好不要混用数据。而PCR一般是用来验证。
五、两组测序数据的概率分布
microassay检测的是荧光信号的连续度量,相同基因在不同细胞的表达水平服从log-normal(对数正态)分布,由定量PCR验证。
RNA-Seq试验中,抽样得到的raw read counts服从泊松分布。
生物学上不同的样本间的差异服从负二项(negative binomial)分布,有时称gamma-Poisson分布。
了解数据分布类型,才知道正确的统计学检验方法。
六、差异分析的意义
1.在不同背景下比较mRNA水平
[if !supportLists]· [endif]同一物种,不同组织:研究基因在不同部分的表达情况
[if !supportLists]· [endif]同一物种,同一组织:研究基因在不同处理下,不同条件下的表达变化
[if !supportLists]· [endif]同一组织,不同物种:研究基因的进化关系
[if !supportLists]· [endif]时间序列实验:基因在不同时期的表达情况与发育的关系
2.基因分类: 找到细胞特异,疾病相关,处理相关的基因表达模式,用于诊断疾病和预测等
3.基因网络和通路: 基因在细胞活动中的功能,基因间的相互作用。
----摘自简书xuzhougeng《基因表达分析(上)- 差异表达分析》
七、差异分析工具的选择
如果是芯片数据,一般选择limma包。不过edgeR也可以。芯片数据默认符合正态分布,而limma正是基于正态分布的线性模型。
如果是二代测序如RNA-Seq测序的原始count值,一般选择DESeq或edgeR。注意这两者只能处理count,不能处理FPKM等矫正后的数据。二代测序数据符合柏松分布,理论上不能用T检验,只能用非参数检验(秩和),但是统计力度不够,所以还是得用经过矫正后的参数检验。
如果是FPKM等矫正后的表达量,可以用cuffdiff
总结: 基于以上,对于二代测序数据,先拿到原始count值进行DESeq2差异分析,再转换成TPM进行下游分析。不建议用edgeR和cuffdiff。
---摘自简书PriscillaBai《limma差异分析》