感谢小学学!
测序原理:
将基因打断成片段reads;每段reads一端连接不同的UMI做为标识;PCR;测序
uniquely mapped reads:reads的唯一性由UMI和map位置共同确定
PCR duplicates:pcr后,UMI相同且map位置相同的reads会扩增很多条,去duplicates就是,仅保留一条,去除由于PCR效率不同导致的差别
基因表达量=sum(去除duplicates后的uniquely mapped reads)
expression A = read1 + read2 +read3
expression B = reada + readb +readc +readd +reade
影响分析的因素:
文库大小的影响:文库越大,细胞越多,含有的geneA绝对值就越多
基因长度影响:基因越长,打断后的reads就越多,相加值就越大
测序深度影响:相当于PCR效率不同带来的影响
为什么要PCR:对于chipseq、singlecellseq、atacseq细胞量少,测序时信号非常低,无法检测到,送测前PCR是为了扩大信号。
去duplicates是去除PCR的影响,效果相当于收获样本打成片段后直接测序。
去除文库大小影响,就是去除不同批次收样细胞量不同的影响,效果相当于每次都收获相同量的细胞进行测序
常规RNAseq数据标准化步骤:
counts矩阵,行为sample,列为gene
方法1:
exprSet=mean(colSums(exprSet))*exprSet/colSums(exprSet)
exprSet=log2(exprSet+1)
方法2:TMM(edgr+limma包)
注意:(1)方法1结果全为正,方法2会出现负值;(2)方法1中,当不同批次送样,或同批次但不同lane(没有混样)时需要消除批次效应(具体步骤上网找。方法2包含了去批次处理,不需再去批次。