题外话:Python中可通过Lib目录下的idlelib子目录下的idle.pyw或者idle.py进入Python的IDLE界面
DNA中的基因可以分为编码区和非编码区,编码区包含着外显子和内含子,经研究目前发现一般非编码区具有基因表达的调控功能,比如启动子在非编码区。编码区则转录为mRNA并可以最终翻译为蛋白质。
外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA进行剪切变为成熟的mRNA时,内含子被切除,而外显子被保留,实际上真正编码蛋白质的是外显子,而内含子则无编码能力,
CDs全名Coding sequence, 是一段编码蛋白产物的序列,Sequence coding for aminoacids in protein.与开放式阅读框有区别,开放式阅读框指的是从一个起始密码子开始到一个终止密码子结束的一段序列,但是,不是所有的开放式阅读框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。CDs是编码一段蛋白产物的序列。CDs必定是一个ORF,也可能包括很多ORF,反之,每个ORF不一定都是CDs。
translation是理论上的,而transcription则显然是事实存在的。
外显子拼接形成成熟的mRNA,多数基因都有UTR(非翻译区),它们也是外显子拼接的产物,所以,你会发现mRNA的长度要大于CDs,只有CDs才编码蛋白,AUG以前的mRNA编码前导序列。
外显子并不一定编码蛋白质,成熟mRNA的UTR也可以是外显子,外显子就是RNA剪接后留下的部分
外显子与CDs区不是完全一致的,CDs区一定属于外显子,但是外显子不一定是CDs区,也就是说外显子不一定都能翻译成蛋白的。mRNA包括UTR和CDS!
hnRNA(DNA直接转录成的RNA)hnRNA heterogeneous nuclear RNA系heterogeneous nuclear之缩写。核内不均一RNA为存在于真核生物细胞核中的不稳定、大小不均的一组高分子RNA(分子量约为105~2×107,沉降系数约为30—100S)之总称。占细胞全部RNA之百分之几,在核内主要存在于核仁的外侧。
对start_codon和stop_codon而言,只涉及3个碱基。
对于任意一个编码蛋白转录本而言,可以没有5'UTR,但是肯定有3’UTR,3'UTR最短也就和stop_codon完全相同,即3个碱基。
对于编码蛋白转录本而言,第一个外显子可以部分或者整体全是在5’UTR内部。此外,前面多个外显子也可以都在5’UTR中。
部分编码蛋白转录本最后一个外显子可以部分或者整体全是在3’UTR内部。此外,后面多个外显子也可以都在3’UTR中。