Exons,Introns,ORF,CDS,UTR,lncRNA,转录本,可变剪切,密码子,启动子,顺式作用元件,转录起始位点,终止子,转录因子,结构基因

转自: https://www.jianshu.com/p/379affdebabe

一.核酸，基因，DNA，染色体，基因组，同源染色体，等位基因

1.核酸，基因，DNA，染色体

核酸：一种通常位于细胞核内的大型生物分子，主要负责生物体遗传信息的携带和传递。核酸有两大类，分别是脱氧核糖核酸（DNA）和核糖核酸（RNA）。核酸的单体结构为核苷酸。每一个核苷酸分子由三部分组成：一个五碳糖、一个含氮碱基（A,T,C,G,U）和一个磷酸基。如果五碳糖是脱氧核糖则为脱氧核糖核苷酸，此单体之聚合物是DNA。如果其五碳糖是核糖则为核糖核苷酸，此单体之聚合物是RNA。

基因（gene）：是指一段能够编码基因产物（RNA或蛋白质）的核苷酸序列（ATCG）。能编码出蛋白质的是编码基因，能编码出RNA的是非编码基因。弄清其序列本身的过程叫基因测序。基因产物可以是蛋白质（蛋白质编码基因）及RNA，从而控制生物个体的性状（差异）表现。在一个个体当中所有的基因总和叫基因组。在一个物种中所有等位基因的总合叫基因库。在大多数真核生物中，基因分为细胞核基因及线粒体基因，绿色植物的叶绿体也含有独立于细胞核的叶绿体基因组。

在某一细胞类型当中所有被表达的基因叫转录组，所有编码蛋白质的基因叫蛋白质组。

管家基因：在生物体生命的全过程都是必须的，且在一个生物个体的几乎所有细胞中持续表达的基因。

Ｃ值悖论：物种的基因组大小与遗传复杂性并不是线性关系，与进化的复杂性也并不一致。

DNA ：是一种生物大分子, 由四种脱氧核苷酸分子按照一定数目和顺序组合而成,是一条长链分子。基因则是DNA分子上具有遗传效应的DNA片段（一般来说）。一个DNA分子上有很多个基因。

DNA复制 ：以DNA为模板，在DNA聚合酶的催化作用下，将四种游离的dNTP（ATCG）按照碱基互补配对原则合成新链DNA,DNA复制：模板为双链DNA，合成的新链与模板链一模一样，原料为四种dNTP，为半保留复制。

脱氧核苷酸是DNA的基本组成单位，基因是DNA上有遗传效应的DNA片段，DNA是染色体上的存在物。基因是直线排列在染色体上。

基因是具有遗传效应的DNA片段，存在于DNA上，真核生物的DNA存在于染色体上，基因是构成染色体的最小单位，染色体只能存在于真核生物的细胞核中。基因存在于细胞核和细胞质中，也存在于真核生物和原核生物中，真核生物的DNA存在于细胞核、叶绿体和线粒体中。

image

染色质：由组蛋白和 DNA 组成，147 个碱基对的 DNA 缠绕在 8 个核心组蛋白周围，形成基本染色质单元，即核小体。

染色质的功能是将 DNA 高效包装成小体积，以适合进入细胞的细胞核，保护 DNA 结构和序列。将 DNA 包装到染色质中可确保有丝分裂和减数分裂，防止染色体断裂，并控制基因表达和 DNA 复制。

image

DNA 缠绕在组蛋白周围，形成核小体；核小体再结合成染色质纤维。1）未包装的 DNA。2）DNA 缠绕组蛋白八聚体，形成核小体。3）核小体压缩成染色质纤维。

异染色质是染色质的紧密排列形式，可以沉默基因转录。异染色质构成着丝粒、端粒、中心周围区域和富含重复序列的区域。常染色质凝缩较少，含有活性最强的转录基因。可看下图理解常染色质和异染色质。

image

** 端粒（Telomere）：存在于真核细胞线状染色体末端的一小段DNA-蛋白质复合体，作用是保持染色体的完整性和控制细胞分裂周期。端粒、着丝粒和复制原点是染色体保持完整和稳定的三大要素。**端粒学说：处于染色体末端的端粒会随着细胞的分裂复制不断缩短，直至临界长度，此时细胞失去活性而死亡，因此端粒的缩短意味着细胞的衰老。

着丝粒：又称中节，染色质的结构，将染色体分成分为短臂(p)和长臂(q)，主要作用是使复制的染色体在有丝分裂和减数分裂中可均等地分配到子细胞中。由高度重复的异染色质组成，其主要成分为DNA和蛋白质。

在很多高等真核生物中，着丝粒看起来像是在染色体一个点上的浓缩区域，这个区域包含着丝点，又称主缢痕。着丝粒和动粒是存在于主缢痕的两个特殊结构。中期染色体的两条姐妹染色单体的连接处，有一向内凹陷、着色较浅的缢痕，称为主缢痕(初级缢痕primary constriction)。

随体（satellite）：位于染色体末端的、圆形或圆柱形的染色体片段，通过次缢痕与染色体主要部分相连，主要由异染色质组成，含高度重复的DNA序列，不具有常染色质的功能活性。

image

基因组，同源染色体，等位基因

基因组：细胞或生物体的一套完整单倍体的遗传物质总和。

单倍体：物种的细胞中只有一套染色体的为单倍体。（例：人的精子和未受精的卵子中都只有一套23条染色体，精子细胞和未受精的卵子细胞为单倍体）

双倍体：物种的细胞中有两套染色体的为双倍体。（例：人的体细胞有23对共46条染色体，每23条为一套，人的体细胞为双倍体）

多倍体：细胞中有n套染色体的为多倍体（n大于或等于3）。

** 同源染色体：**

** 国外教材：真核生物体细胞中成对存在的染色体称为同源染色体。一对同源染色体上有控制同一性状的基因，这些基因的排列顺序相同，等位基因之间具有相似的序列，所以一对同源染色体彼此具有高度相似的序列，但不一定完全相同。**
国内教材：同源染色体在二倍体生物细胞中，形态、结构基本相同，在减数第一次分裂的四分体时期中彼此联会（若是三倍体及其他奇数倍体生物细胞，联会时会发生紊乱），在这一对染色体其中的一条来自母方，另一条来自父方。

image

染色体组：一组非同源染色体，携带着控制生物体生长，发育，遗传和变异的一套信息。

交叉互换：在四分体时期，非姐妹染色单体之间发生交叉互换，导致基因重组。

image

区分同源染色体与姐妹染色单体：姐妹染色单体是由一个着丝点连着的两条染色单体，是在细胞分裂的间期由同一条染色体经复制后形成的，两条染色单体的DNA序列完全一致。它们形状大小，DNA序列完全相同（不考虑复制出差错），但并非一条来自父方、一条来自母方，所以姐妹染色单体不是同源染色体。同源染色体的两条单体的DNA序列不相同，并且分别来源于父母体。

**等位基因：****在真核生物中，染色体在体细胞中是成对存在的。每条染色体上都带有一定数量的基因。等位基因（allele），是指位于一对同源染色体相同位置上控制同一性状不同形态的基因。**等位基因依所携带性状的表现，又可**分为显性基因A和隐性基因a。每个个体分别遗传自父方和母方的等位基因的不同，两等位基因 A 和 a 四种组合方式，决定表现出来的性状也就不同，所以生物与生物之间长得就有一样之处也有不一样之处。**

2.转录，翻译，mRNA，转录组，转录本，可变剪切，最长转录本，lncRNA

**基因表达：**生物基因组中**结构基因**所携带的遗传信息经过转录、翻译等一系列过程，合成特定的蛋白质，进而发挥其特定生物学功能和生物学效应的全过程。**说白了基因表达就是转录，翻译。**

** 转录：****遗传信息从DNA流向RNA的过程。即以双链DNA中的确定的模板链（模板链用于转录，编码链不用于转录）为模板，以A,U,C,G四种核糖核苷酸为原料，在RNA聚合酶催化下合成RNA的过程。合成的新链除了把DNA上的T改为U外，其他与编码链一样。**生成的mRNA携有的密码子，进入核糖体后实现蛋白质的合成。

转录仅以DNA的一条链作为模板，被选为模板的单链称为模板链，亦称无义链；另一条单链称为非模板链，即编码链，因编码链与转录生成的RNA序列T变为U外其他序列一致，所以又称有义链。

**翻译：**以mRNA为模板，在核糖体内合成蛋白质。原料为20种游离的氨基酸，3个碱基决定一个氨基酸。将成熟的mRNA分子（由DNA通过转录而生成）中“碱基的排列顺序” 解码，生成对应的特定氨基酸序列的过程。**但转录生成的非编码RNA，如长链非编码RNA（lncRNA）、转运RNA（tRNA）、核糖体RNA（rRNA）和小核RNA（snRNA）等并不被翻译为氨基酸序列。**

翻****译过程需要的原料：mRNA、tRNA、20种氨基酸、能量、酶、核糖体。翻译的过程大致可分作三个阶段：起始、延长、终止。
翻译主要在细胞质内的核糖体中进行，氨基酸分子在氨基酰-tRNA合成酶的催化作用下与特定的转运RNA（tRNA）结合并被带到核糖体上。生成的多肽链（即氨基酸链）需要通过正确折叠形成蛋白质，许多蛋白质在翻译结束后还需要在内质网上进行翻译后修饰才能具有真正的生物学活性。

** mRNA：messengerRNA，信使RNA是由DNA经hnRNA剪接而成，携带遗传信息的能指导蛋白合成的一类单链核糖核酸。**

**反义RNA：碱基序列正好与有意义的 mRNA 互补的 RNA。** 

**转录组：一般是指从细胞或组织的基因组所转录出来的RNA的总和，包括编码蛋白质的mRNA和各种非编码RNA**    **（rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等）**

**转录本：**是指由一条基因通过**转录，由于可变剪切**形成的一种或多种可供编码蛋白质的成熟mRNA（狭义）

非编码RNA（Non-coding RNA）如lncRNA也有转录本的说法

**可变剪切（Alternative splicing）：一条未经剪接的前体hnRNA，要将非编码蛋白质的内含子（intron）切除，同一基因中的很多个外显子以不同形式进行随机组合（在剪切的过程中是有可能剪切掉一些外显子的），使一个基因在不同时间、不同环境中能够制造出不同的蛋白质，增加生理状况下系统的复杂性或适应性。这个过程有多种多样的剪切和拼接方式（选择不同的剪接位点），从而产生不同的剪切异构体（isoform）。**

**最长转录本：由于可变剪切一个基因得到好多个序列长度不同的转录本，应该挑选出序列最长的最长转录本作为数据的分析**

**lncRNA：和mRNA一样，是由对应的基因转录而成，通过剪接形成成熟体的lncRNA，具有5'帽子和poly尾巴（有些会没有）。同一基因可以形成不同的转录本的lncRNA。在lncRNA所对应的的DNA序列上，包含内含子和外显子，转录之后的转录本，经过剪接等作用，外显子，内含子拼接到一起成为一个成熟的lncRNA（lncRNA对应的转录本剪切会保留内含子）。但是它因为缺乏可识别的阅读框，所以不表达蛋白。**

image

3.外显子，内含子

**基因DNA分为编码区和非编码区，编码区包含外显子和内含子，非编码区包括前导区（5‘UTR）、尾部区（3‘UTR）、调控区，调控区又包括启动子、增强子、终止子等。真核生物非编码区位于编码区的上游和下游，故又称侧翼序列。编码区则转录为mRNA并最终翻译成蛋白质。真核生物的基因含有外显子和内含子，是前者区别原核生物的特征之一。**

**基因转录之后，首先是形成前体mRNA（或pre-mRNA），通过剪切内含子连接外显子，5’端加帽及3’端加尾之后形成成熟的mRNA。**真正编码蛋白质的是外显子，内含子无编码功能。**内含子存在于DNA中，在转录的过程中，DNA上的内含子也会被转录到前体RNA中，但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。**

**内含子和外显子的概念都是针对DNA序列而不是RNA序列的。****内含子和外显子的分界线在于：GU-AG法则。即每个内含子的开始两个碱基都是GU（或GT），最后两个是AG。**

基因经过转录形成Pre mRNA，这里面包含着内含子和外显子**（5端是以外显子打头，但是这段外显子不仅包含CDS，还包含5' UTR；3端是以外显子结束，但是这段外显子不仅包含CDS，还包含3' UTR）**，经过剪接形成成熟mRNA,内含子已减掉，**如果抛开后来加上去的cap和poly A的话，这时全是外显子，但是不全是CDS，因为只有中间的那部分以起始密码子AUG开始、以终止密码子结束的片段才是CDS，只有这部分才会被翻译成蛋白质。**

外显子拼接形成成熟的mRNA，mRNA的长度要大于CDS，只有CDS才编码蛋白，即外显子不一定都能翻译成蛋白: mRNA包括UTR和CDS

外显子与CDS区不是完全一致的，cds区一定属于外显子，但是外显子不一定是CDS区，可能还包括UTR

**一个外显子经常编码蛋白的一个蛋白质结构域。蛋白质结构域（protein domain）是蛋白质中的一类结构单元，是构成蛋白质（三级）结构的基本单元。**

4.ORF，CDS，起始密码子，终止密码子

**CDS Sequence ：**蛋白质编码区 coding for amino acids in protein ，是编码一段蛋白产物的序列，是结构基因组学术语。**它就是与蛋白序列一一对应的DNA序列，并且序列中间不存在其他与蛋白无关的序列，即：**

**CDS没有任何内含子，5‘UTR，3‘UTR**

**ORF 开放阅读框：Open Reading Frame。**是从一个起始密码子开始到一个终止密码子结束的一段序列，它是**理论上的蛋白编码区**，一般是先在DNA序列中寻找起始密码子（AUG）对应的序列ATG，然后按每3个碱基一组（密码子以三个碱基为一单位）向后延伸，一直到出现终止密码子（UAG、UGA、UAA）对应的序列。

由于密码子读写起始位点的不同，mRNA序列可能按六种ORF阅读和翻译（每条链三种，对应三种不同的起始位点）。在6种潜在ORF中，一般选择中间没有被终止密码子隔开的最大的阅读框为正确结果。（可能不好懂，[举个例子](https://www.jianshu.com/p/2ba85c5306e7)）

**CDS与开放阅读框ORF的区别**：CDS可以是开放阅读框(ORF)的子集。

负责翻译的DNA区域合起来就是ORF序列，而转录本逆转录就是cDNA序列

密码子（codon）是指 mRNA 分子中每相邻的三个核苷酸编成一组，在蛋白质合成时，代表某一种氨基酸的规律。

信使RNA在细胞中能决定蛋白质分子中的氨基酸种类和排列次序。mRNA分子中的四种核苷酸（碱基）的序列（AUCG）能决定蛋白质分子中的20种氨基酸的序列。而在信使RNA分子上的三个碱基能决定一个氨基酸。

密码子的简并性：分子生物学中，同一种氨基酸具有两个或更多个密码子的现象称为密码子的简并性（degeneracy）。**对应于同一种氨基酸的不同密码子称为同义密码子（synonymous codon），只有色氨酸与甲硫氨酸仅有1个密码子。**

**起始密码子和终止密码子**都是**mRNA上的**三联体碱基序列，分别决定翻译的起始和终止。

**起始密码子 start codon：**指定 mRNA 上开始合成蛋白质的密码子，也是第一个被核糖体翻译的mRNA上的密码子，位于编码区内，紧邻5′UTR。较为常见的起始密码子是**AUG。**

**起始密码子 start codon 和起始子 Initiator 不是一个概念。真核生物中蛋白质编码基因的核心启动子元件有4类：传统的TATA盒、上游核心启动子元件BRE、下游启动子元件DPE和起始子(initiator，Inr)。Initiator元件指的是一段富含嘧啶的序列——PyPyA+1NT/ApyPy，转录起始位点位于其中的+1位。**

**终止密码子 stop codon：**终止肽链合成的信使核糖核酸(mRNA)的三联体碱基序列，**UAA、UAG和UGA**，它们不编码氨基酸。

image

5.UTR

**UTR   **Untranslated Regions **非翻译区，代表Exon的非蛋白质编码部分，**是 **mRNA 分子两端的非蛋白编码片段**

5'-UTR**从mRNA起点的 甲基化鸟嘌呤核苷酸帽 延伸至 AUG起始密码子**

3'-UTR**从编码区末端的 终止密码子 延伸至 多聚A尾巴（Poly-A）的前端**

下图为DNA直接转录产物（hnRNA）不含非编码区含有内含子

image

6. 基因组学文件说明，从基因组注释文件整理出基因蛋白编码区、起始密码子上游几KB和内含子信息gff3文件

**genome.fasta    即基因组每条染色体/scanffold/contig的DNA序列（ATCG）**

** final.gene.longest.gff3 基因组 gff 注释文件一般基因的位置信息与mRNA位置信息相同，就只包括了5‘UTR到3‘UTR之间的区域（即只包括编码区不包括非编码区）,注释文件中也可能会有一些基因 5‘UTR，3‘UTR区域鉴定不出来没有细写**

** final.gene.longest.gff3.transcript.fa 即最长转录本每条转录本对应的每个基因的核苷酸序列（ATCG）**

final.gene.longest.gff3.cds.fa 即最长转录本每条转录本对应的编码蛋白质的核苷酸序列（ATCG）

** final.gene.longest.gff3.pep.fa 即最长转录本每条转录本的CDS序列翻译出来的蛋白序列（氨基酸序列）（CLESRKVFVG等）**

**[用python从基因组注释文件（gff3格式）整理出基因蛋白编码区、起始密码子上游几KB和内含子信息的gff3文件](https://links.jianshu.com/go?to=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FFs0wogah7G9u-lCZeo4tdw)（这里的起始密码子上游几KB寻找代码用要注意，作者注释文件中mRNA的起始位置和第一个CDS起始位置一致，即无5‘UTR信息）**

7.****非编码区，调控区，启动子，终止子，回文序列

**非编码区（Non-coding region）是不能够转录为相应信使RNA，不能指导蛋白质合成（也就是不能编码蛋白质）的区段。非编码区位于编码区前后，同属于一个基因，控制基因的表达和强弱。真核生物非编码区位于编码区的上游和下游，故又称侧翼序列。**

侧翼序列（非编码区）包括前导区（5‘UTR）、尾部区（3‘UTR）、调控区。侧翼序列（非编码区）虽然不能编码蛋白质，但一般非编码区具有调控基因表达的功能。

调控区又称调控序列。调控序列（Regulatory sequence）可以是DNA中一段包含启动子、终止子、增强子、沉默子，以及一些调节蛋白（如转录因子）附着位点的核酸片段。这些序列调控了基因的表达，进而影响蛋白质的合成，调节转录的水平。

顺式作用元件（cis-regulatory elements）：CREs，能影响基因表达，但不编码RNA和蛋白质的DNA序列。
按功能特性，真核基因顺式作用元件分为启动子、增强子及沉默子。

反式作用因子：能识别和结合特定的顺式作用元件,并影响基因转录的一类蛋白质或RNA。

启动子：promoter，指一段能使特定基因进行转录的DNA序列。启动子可以被RNA聚合酶辨认，并开始转录合成RNA。一般启动子位于5‘UTR上游（编码区上游），紧靠着转录起点，引导RNA聚合酶与基因的正确部位结合，其本身不被转录，长约100~1000碱基对（nt）。有一些启动子 (如tRNA启动子) 位于转录起始点的下游，这些DNA序列可以被转录。
增强子：enhancer，与反式作用因子结合，增强转录活性，在基因任意位置都有效，无方向性，远离转录起始位点，可位于转录起始点的上游或下游。从功能上讲，没有增强子存在，启动子通常不能表现活性；没有启动子时，增强子也无法发挥作用。根据南京大学陈迪俊老师的研究表明增强子比启动子能结合更多的转录因子[(Nature Communications)](https://links.jianshu.com/go?to=https%3A%2F%2Fwww.nature.com%2Farticles%2Fs41467-019-09513-2)

沉默子：silencer，基因表达负调控元件，与反式作用因子结合，抑制转录活性。

**如下图，可以看到不同的调控序列：**

image

转录起始位点与启动子：

** 1.转录起始位点（transcription start site，TSS ）是指一个基因的5'端转录的第一个碱基（是指 5'UTR 头的第一个碱基，不是尾），它是与新生RNA链第一个核苷酸相对应DNA链上的碱基，通常为一个嘌呤（A或G）。在一个典型的基因内部，排列顺序为转录起始位点(TSS，一个碱基)-起始密码子编码序列 (ATG)-终止密码子编码序列-转录终止位点 (TTS)，即TSS-ATG-TGA-TTS**

** 通常把转录起始位点前即 5'末端（5'UTR 头的末端，不是尾）的序列称为上游，而把其后即 3'末端（3'UTR 尾的末端）的序列称为下游。**

**2.启动子（promoter）：是指一段能使特定基因进行转录的DNA序列。启动子可以被RNA聚合酶辨认，并开始转录合成RNA。**在RNA合成中，启动子可以和调控基因转录的转录因子产生相互作用，控制基因表达（转录）的起始时间和表达的程度，包含核心启动子区域和调控区域，就像“开关”，决定基因的活动，继而控制细胞开始生产哪一种蛋白质。其核心部分是非编码区上游的RNA聚合酶结合位点，指挥聚合酶的合成，这种酶指导RNA的复制合成。

**一般启动子位于5‘UTR上游（编码区上游），紧靠着转录起点，引导RNA聚合酶与基因的正确部位结合，其本身不被转录，长约100~1000碱基对（nt）。**有一些启动子 (如tRNA启动子) 位于转录起始点的下游，这些DNA序列可以被转录。

**强启动子**（strong promoter）：对RNA聚合酶有很高亲和力的启动子，可以指导合成大量的mRNA。

真核生物体内具有三种保守的RNA聚合酶（Pol I，II，和III），它们可以将核基因组转录成各种编码和非编码转录本（植物还使用另外两种酶，Pol IV和Pol V来产生非编码转录本如lncRNA）。Pol I，II，和III 三类聚合酶能够识别不同的启动子，即**启动子有三类。其中II类启动子**由**：**传统的TATA盒、上游核心启动子元件BRE、下游启动子元件DPE 和 起始子(initiator，Inr) 四部分组成，转录起始位点位于起始子内**。**

3.启动子是一段序列，转录起始位点是一个碱基。不能相等同。RNA聚合酶II（pol II）所识别的启动子（II类启动子）包含转录起始位点，两者属包含与被包含的关系。

**终止子 terminator ：位于编码区下游，是转录过程中能够终止RNA聚合酶转录的DNA序列。紧靠着转录的终点位置，**阻碍RNA聚合酶的移动，并使其从DNA模板链上脱离下来。终止子可分为两类：一类不依赖于蛋白质辅因子就能实现终止作用。另一类则依赖蛋白辅因子才能实现终止作用。

**基因非编码区的碱基的插入、缺失和替代也属于基因突变事件，尽管大多数的研究是局限在编码区突变。** 

**回文序列：**是一段长约7-20个核苷酸对的反向重复顺序，**也称为终止信号，是RNA聚合酶转录终止的信号，位于AATAAA的下游**，其对称轴距转录终止点约16-24bp。**因为回文序列的特殊排列，其大多都位于非编码区。**

8.转录因子及结合位点，结构基因，调节基因，操纵基因

**转录因子(transcription factor)：**一群能与基因**5'端上游特定序列专一性结合**，从而保证目的基因以**特定的强度**在特定的**时间与空间**表达的蛋白质分子，这些蛋白质能调控其基因的转录。调控方法是转录因子可以调控核糖核酸聚合酶（RNA聚合酶，或叫RNA合成酶）与DNA模板的结合。** 更详细的转录因子介绍：[https://cloud.tencent.com/developer/article/1376739](https://links.jianshu.com/go?to=https%3A%2F%2Fcloud.tencent.com%2Fdeveloper%2Farticle%2F1376739)**

转录因子与RNA聚合酶Ⅱ形成转录起始复合体，共同参与转录起始的过程。

**TF结合位点 transcription factor binding site，TFBS：**转录因子调节基因表达时，与基因模板链结合的区域。**一般应该分布在基因前端（但：人21和22号染色体上，只有22%的转录因子结合位点分布在蛋白编码基因的5'端）**

**三种基因是对基因的功能所作的区分，是以直线形式排列在染色体上：**

结构基因：是决定合成某一种蛋白质或RNA分子结构相应的一段DNA。结构基因的功能是把携带的遗传信息转录给mRNA（信使核糖核酸），再以mRNA为模板合成具有特定氨基酸序列的蛋白质或RNA。

1）原核生物结构基因：连续的，RNA合成不需要剪接加工；

2）真核生物结构基因：由外显子（编码序列) 和内含子（非编码序列) 两部分组成。

非结构基因：结构基因两侧的一段不编码的DNA片段(即侧翼序列)，参与基因表达调控。

**调节基因：是调节蛋白质合成的基因 。它能使结构基因在需要某种酶时就合成某种酶，不需要时，则停止合成**，它对不同染色体上的结构基因有调节作用。

**操纵基因：位于结构基因的一端，是操纵结构基因的基因。当操纵基因“开动”时，处于同一染色体上的，由它所控制的结构基因就开始转录、翻译和合成蛋白质。当“关闭”时，结构基因就停止转录与翻译。**操纵基因与一系列受它操纵的结构基因合起来就形成一个**操纵子**。

在正常情况下，在需要某种或其有关的酶时，**在调节基因和操纵基因的控制下等候在启动子 (Promotor) 位置上的RNA聚合酶开始转录，从而产生了与这些酶有关的结构基因的信使RNA，并由后者合成所需的酶。**若结构基因发生突变，便会产生失去活性的蛋白质，从而造成差错。

声明：本篇多为资料整理总结，仅用于自学记录和交流，侵删，谢谢。参考：

素锦时年_1b00 https://www.jianshu.com/p/df37d5f56bca

米妮爱分享 https://www.jianshu.com/p/65e2c2ad19a6

刘小泽 https://www.jianshu.com/p/2ba85c5306e7

Han_zh https://www.jianshu.com/p/91241c82ba5e

LeoinUSA https://www.jianshu.com/p/a56ba94eaf36

刘小泽 https://www.jieandze1314.com/post/cnposts/169/

叩响生信之门 https://mp.weixin.qq.com/s/Fs0wogah7G9u-lCZeo4tdw

https://www.abcam.cn/epigenetics/chromatin-structure-and-function-a-guide-2

转录起始位点与启动子

Sc_RNA_seq https://www.jianshu.com/p/a2c0d5b0dbc1

https://zhuanlan.zhihu.com/p/63596994 端粒

作者：ytbao
链接：https://www.jianshu.com/p/379affdebabe
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

最后编辑于：2021.11.20 17:26:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341

Exons,Introns,ORF,CDS,UTR,lncRNA,转录本,可变剪切,密码子,启动子,顺式作用元件,转录起始位点,终止子,转录因子,结构基因

一.核酸，基因，DNA，染色体，基因组，同源染色体，等位基因

1.核酸，基因，DNA，染色体

基因组，同源染色体，等位基因

2.转录，翻译，mRNA，转录组，转录本，可变剪切，最长转录本，lncRNA

3.外显子，内含子

外显子拼接形成成熟的mRNA，mRNA的长度要大于CDS，只有CDS才编码蛋白，即 外显子不一定都能翻译成蛋白: mRNA包括UTR和CDS

外显子与CDS区不是完全一致的，cds区一定属于外显子，但是外显子不一定是CDS区，可能还包括UTR

4.****ORF，CDS，起始密码子，终止密码子

负责翻译的DNA区域合起来就是ORF序列，而转录本逆转录就是cDNA序列

5.UTR

6. 基因组学文件说明，从基因组注释文件整理出基因蛋白编码区、起始密码子上游几KB和内含子信息gff3文件

7.****非编码区，调控区，启动子，终止子，回文序列

侧翼序列（非编码区）包括前导区（5‘UTR）、尾部区（3‘UTR）、调控区。侧翼序列（非编码区）虽然不能编码蛋白质，但一般非编码区具有调控基因表达的功能。

转录起始位点与启动子：

3.启动子是一段序列，转录起始位点是一个碱基。不能相等同。RNA聚合酶II（pol II）所识别的启动子（II类启动子）包含转录起始位点，两者属包含与被包含的关系。

8.转录因子及结合位点，结构基因，调节基因，操纵基因

转录因子与RNA聚合酶Ⅱ形成转录起始复合体，共同参与转录起始的过程。

结构基因：是决定合成某一种蛋白质或RNA分子结构相应的一段DNA。结构基因的功能是把携带的遗传信息转录给mRNA（信使核糖核酸），再以mRNA为模板合成具有特定氨基酸序列的蛋白质或RNA。

非结构基因：结构基因两侧的一段不编码的DNA片段(即侧翼序列)，参与基因表达调控。

推荐阅读更多精彩内容

外显子拼接形成成熟的mRNA，mRNA的长度要大于CDS，只有CDS才编码蛋白，即外显子不一定都能翻译成蛋白: mRNA包括UTR和CDS

4.ORF，CDS，起始密码子，终止密码子