1130 RNAseq生物信息分析(王通老师)
01课程介绍
[if !supportLists]1. [endif]RNAseq测序定义
[if !supportLists]2. [endif]为什么要进行RNA测序
机体DNA是一个相对静态的过程,RNA是一个动态变化的过程,其在生理病理或者外在条件下,会发生相应变化,影响调控疾病发生。所以解释RNA变化在生命科学中是非常重要而这时候就需要RNAseq了。DNA是静止的,RNAseq是动态的拍照
[if !supportLists]3. [endif]RNA seq文章数量统计说明RNAseq的重要性
[if !supportLists]4. [endif]RNAseq应用(1.生命科学研究 2.医学研究 3.农业领域)
[if !supportLists]5. [endif]RNAseq课程大纲,王老师打算怎么讲(包括基础知识与实操)
[if !supportLists]6. [endif]RNAseq课程能够收获啥 (1.提高阅读RNAseq文献的能力 2.轻松理解RNA seq结题报告 了解RNAseq数据分析过程 4.合理设计RNAseq研究方案)
[if !supportLists]7. [endif]本课程提供什么(配套练习+配置好环境的服务器+脚本)
02RNAseq测序技术概述
[if !supportLists]1. [endif]转录组定义:广义(全部转录本的总和)与狭义(mRNA);特点是具有特定的空间性与时间特征。对于转录本的分析分为定性与定量两个方面 转录组是一个拍照,动态过程.不同细胞功能不同,很大原因是因为转录组不同。
[if !supportLists]2. [endif]中心法则(DNA<---->RNA---蛋白质) mRNA称为coding RNA,与蛋白编码相关,其余RNA称为非编码RNA。 人类基因组上只有10%是基因区,而基因区只有不到1.5%,其余90%都认为是无用的。但存在即合理,这些非编码区RNA也能够影响基因表达,影响表型。
[if !supportLists]3. [endif]各类RNA在转录中的含量(真核RNA与原核RNA rRNA 80% tRNA15% mRNA 5% lncRNA等占1%左右)
[if !supportLists]4. [endif]RNAseq分类(1.测序物种(原核与真核)2.建库测序类型(常规与链特异性)3.有无参考序列(有参序列与RNA seq denovo) 4测序目标(外显子测序;lncRNA测序;测序小RNA测序等))
[if !supportLists]5. [endif]RNAseq与DNAseq之间的差异(选择根据研究目的--比较物种差异,遗传的系统发育 SNP与InDel等可以选择RNA seq; RNA是动态变化的,不同条件下基因表达差异通过RNA测序完成,因为短时间内DNA不会发生变化,可变剪接与融合基因等也必须使用RNAseq去检测)RNA seq只捕获转录出来的信息,真核生物中转录出来的信息占基因组很小一部分比例,人的话大概3G,10%与转录有关,1%为编码区。测DNA需要测30G信息,RNAseq测序测6G就可以了,测外显子数据,只需要捕获其1%的数据,30多M就行。
03RNAseq发展历史(基于高通量测序)
1.RNA检测发展史
qPCR(金标准但是表达量低)---->EST(表达序列标签,随机片段可以用于发现新的转录本)
---->基因表达连继续分析技术(SAGE),能同时对上千个转录物进行研究(1. 9~10个碱基的短核苷酸标签序列(人类基因组只能表达8万个左右的转录本);2. 短片段标签相互链接,形成长的DNA分子,则对该克隆进行测序将得到大量连续的单个标签,这样就可以对数以千记个mRNA转录本进行分析,类似于DGE) ------> 基因芯片技术(Microarry---在高通量测序出来之前,芯片是主要的大规模转录本表达分析技术)通过将几十万个不等的探针固定在约1厘米见方的固体片基上支撑的(厉害,这些科学家时真的厉害),利用核苷酸分子在形成双链时碱基互补配对原理,microarry可以一次性的检测出所有与探针互补的核苷酸片段,从而快速得到样本基因的表达谱。便宜但只能检测已知基因,且不容易定量。----->数字基因表达谱(DGE)也是通过捕获标签实现的,真核生物没有相应的DGE标签,所以不能使用。----> 转录组测序
[if !supportLists]2. [endif]技术缺陷(主要从这四个方面去观察)
[if !supportLists](1. [endif]需要依赖已知参考序列,若无,就无法捕获
[if !supportLists](2. [endif]通量低,一次不能捕获全部转录情况
[if !supportLists](3. [endif]只能定性,不能定量,只能确定有无,不能确定多少
[if !supportLists](4. [endif]不适合于所有物种
RNA seq一定程度上可以解决这些技术缺陷
[if !supportLists]3. [endif]RNAseq与芯片的比较(检测低表达基因;检测基因数;检测阈值;噪音;准确性;可重复性;)
[if !supportLists]4. [endif]几种基因表达定量技术的比较(上面10个参数,归纳完全够了)
[if !supportLists]5. [endif]RNAseq技术优势
(1 RNAseq测序直接得到的时核酸序列信息(尤其注意,所以可以做融合基因与可变剪辑等,分析源于此处。。太傻了,不要只有概念,只听说过,却不知道为什么,不要脑子麻木了),除了可以得到基因表达量,还可以检测RNA的结构与结构变异。
(2 开放的转录组分析:无需参考基因组信息;无需设计探针,不但能检测已知基因,还能发现新的转录本
(3 在测序覆盖度足够大时能够检测到细胞中的低丰度转录本。
(4 随着测序深度增加,可以获得更广的动态检测范围,能够同时鉴定高丰度与低丰度转录本,定量和定性都更加准确。
04 关于基因的概念(概念是你理解一个东西的基础,冯唐老师的500个专业词汇对于一个行业的大致了解,其实就是这个原因,基础不牢,地动山摇)
[if !supportLists]1. [endif]需要了解的概念:(基因,开放阅读框(ORF),mRNA,转录本,外显子,内含子,CDS,Sform(可变剪切产生的亚型)),了解它们的同与不同
[if !supportLists]2. [endif]基因的概念广义(控制生物体性状的基本单位)与狭义(基因组上完成固定功能的区域),之前认为1个基因对于1个蛋白质,这明显是错误的,因为基因存在可变剪切,不同外显子可以组成不同的转录本。人有40000个基因,但是能够组成100000个以上蛋白质,这也是同一种细胞能够分化成不同形态的物质基础。现常将转录出来的非编码蛋白区域称为基因,甚至包含编码区上下游的调控区域也称为基因。
[if !supportLists]3. [endif]原核生物基因结构示例:(打印出来,那我总得记住你吧)
真核生物基因结构示例:
[if !supportLists]4. [endif]编码区一定是ORF,但ORF不一定是编码区。并非起始密码子开头,终止密码子结尾的序列就具有生物学功能,一般来说1/6的ORF才是编码区(为什么是1/6呢,因为基因读码的序列,正义链起始密码子3个碱基,每一个都能作为开头;反义链起始密码子也有3个碱基,每一个也都能作为结尾,可以产生6个ORF)
[if !supportLists]5. [endif]人类基因组有10%是基因区,只有1%是编码区,因为基因区包含大量的内含子。真核生物普遍存在可变剪切(外显子进行重新组合,组合在一起再接着形成蛋白质,所以靶基因的RNA不可能是一条长长的链,像DNA一样,其有一个组合的过程。。傻了,当时和狗儿所争执的,还是基础不牢固导致的)
认真比对一下未成熟RNA与成熟mRNA吧,认真看一下mRNA的成熟过程(切除UTR,切除内含子,补上5’的帽子与3’的多聚A)。
05 RNAseq样品提取与处理(这是起始过程,决定后续的一切(包括数据分析与产生结果等))
[if !supportLists]1. [endif]RNAseq总实验流程
总RNA提取----》mRNA富集----》cDNA文库制备-----》上机测序
(1 每一步细讲,提取方法:两种(1.Trizol 2.试剂盒)注意提取的纯度与浓度 检测提取效果:电泳18S条带与28S条带,28S条带是18S条带的两倍亮。量要求细胞rna至少要1ug)
(2 样品检测结果解读:只有1-2个峰合格,具有多个峰则表明发生降解。检测结果分类:分为A、质量可以,总量也够两次以上 B 质量可以,总量不够两次以上
C 质量不可以,总量也够两次以上(有建库风险)D 质量不可以,总量也不够两次以上(不建议建库)
样品的总量与纯度等都影响建库
mRNA富集,为什么要富集呢?因为95%的rRNA与tRNA分析是无意义与无效的(但可不可能元件rRNA与运输工tRNA也能影响生物形状呢,毕竟其也是发挥作用的呢?),对于mRNA与非编码且发挥作用的RNA有相应的方法进行富集,去除不需要的RNA,有相应的方法对rRNA与tRNA进行消除。最常见的是Oligo DT富集还有rRNA消除法
OligoDT的优点:富集效率高,不存在核糖体污染;缺点:只适合真核生物,丢失一些ncRNA信息
rRNA消除方法优点:适合于所有物种,除留下mRNA之外,还会保留一些重要的ncRNA
缺点:富集效率低,会存在rRNA污染。
06 RNAseq建库测序:测序得到的结果是ATCG四种碱基
[if !supportLists]1. [endif]建库测序之前,还需要将mRNA反转录成cDNA,最终测ATCG四种序列
[if !supportLists]2. [endif]思考是先反转录,后打断;还是先打断后反转录?(其实都可以,但存在一个效率问题)
也就是打断容易还是反转录容易,其实是打断容易,不管是DNA还是RNA,使用超声波打断其实是差不多的,反转录前后打断没有影响。那就变成了反抓录长的容易还是反转录短的容易。显然对短的反转录效率更高。
[if !supportLists]3. [endif]两种方法比较:结果显示显然是先打断后反转录效果更好(标签数与基因数)
[if !supportLists]4. [endif]文库大小的选择