DNA通过转录,控制着mRNA的合成,而mRNA是蛋白质合成的模板,它决定了蛋白质的序列结构、功能等信息。把mRNA看作一种语言,它由4种不同碱基的核苷酸组成(A、U、C、G),蛋白质序列则是完全不同的另外一种语言,它由20种基本氨基酸组成。在生命体内就有一种机制,它通过识别这4种碱基的不同排列组合来翻译成对应的氨基酸,因此在mRNA中的碱基顺序称为遗传密码(Genetic Code),mRNA中每三个核苷酸组成的三联体称为一个密码子(Codon),遗传密码子表见下图。
64组密码子(4*4*4)中,有三组不编码(UAG、UAA和UGA),它们是终止密码子,还有一组AUG既是甲硫氨酸(Met)的密码子,又是多肽合成的起始密码子。另外,在很多原核生物中GUG和UUG也为起始密码子。
由于密码子具有简并性的特征,即一种氨基酸对应不同的密码子,因此不同氨基酸对应的不同密码子的使用频率是不一定相同的,我们把氨基酸对应的各自密码子使用频次的不同叫做密码子使用偏性。不同种属生物的氨基酸偏爱的密码子是不一样的,甚至同一物种内,不同功能和不同保守程度的基因,它们的密码子使用偏性也是不一样的。
例如,上图的工作中(López, J. L,2019),作者使用了Rhizobiales目中不同物种的细菌基因组,找出不同保守程度的core gene(不同颜色的原点表示),分析不同物种以及不同基因的密码子偏性。图中展示的是对这些不同gene set的密码子偏性的主成分分析结果,可以看出,确实存在的很大的差异,这些这些往往和物种的进化相关。
同样以这份工作为例,细菌相对于真核生物来说,可以较高频率的与外界发生遗传信息交流,比如通过水平基因转移(HGT)从环境中直接获取到其他物种的基因,在细菌内部也十分容易发生基因组的大片段重组,这样就可以把外界吸收来的有利基因慢慢的整合到核心基因组中去。因此通过对基因中密码子的使用偏好进行分析能帮助判断这些基因的来源和进化历程。另外密码子使用频率也和基因的表达量相关,如果基因使用了和tRNA更相似的密码子,它就可以减少与对应的tRNA分子匹配的时间,使具有较高表达量,那么这个基因可能对维持物种的生命活动是十分重要的。
衡量指标介绍
目前,已经提出了很多数学量来对密码子的使用偏性进行量化,有些是对整个基因组内单个密码子的分析,有些则是从一个基因的角度来衡量其密码子偏好性。下面对常用的几个指标做简要的介绍:
1. 密码子使用频次(Observed number of occurrences of codon 'i', Obsi)
对于某一特定的密码子i,其在基因中实际出现的次数称为密码子使用频次。
2. 相对同义密码子使用度(Relative synonymous codon usage, RSCU)
RSCU定义是以某一个同义密码子的使用次数为分子,以该密码子预期出现的次数为分母。其中,预测出现的次数为该密码子所编码的氨基酸的所有密码子平均使用的次数,公式如下:
如果密码子使用没有偏好,则该密码子的RSCU值等于1。当某一密码子的RSCU值大于1,则表明其的使用频率相对较高。由于它计算方便,而且很直观的反映出密码子使用的偏好性,因此在大多数的密码子相关分析中,都使用了它作为衡量偏好性的标准。
3. 有效密码子数(Effective Number of Codon, ENC)
指基因中使用的有效密码子的数量,公式如下
公式中,n表示基因中所使用的密码子总数,k表示同一密码子数量,p表示密码子使用频率。ENC值的范围为20到61,20表示每个氨基酸只使用了一个密码子,61表示每个密码子都被平均使用。其值越低,说明密码子使用偏好性越强,反之亦然。
ENC能反映密码子家族中同义密码子非均衡使用的偏好程度,是评价基因整体密码子偏好性中最具有参考价值的参数。通常高表达基因的密码子偏好程度大,从而其ENC值较小;低表达基因则含有较多种类的稀有密码子,其ENC值较小。所以,可以通过比较ENC值来确定内源基因表达量的相对高低。
4. 密码子适应指数(Codon adaptation index,CAI)
对于某一个基因,CAI是指编码该蛋白的所有密码子相对于这条基因都使用最优密码子的情况下的适应系数。计算该值需要先提供在对应物种中高表达基因的最优密码子表作为参考,公式如下:
L表示基因中所使用的密码子数,CAI值介于0~1之间,该值越大表示适应性越强,CAI值广泛应用于基因表达水平的评估中。
5. 最优密码子使用频率(Frequency of optimal codons, FOP)
最优密码子是指在某物种高表达基因中使用频率最高的密码子,也有人将一个氨基酸的最优密码子定义为具有最大数量的带有其反密码子 tRNA 基因的密码子。该指标是指最优密码子和其同义密码子的比值,和CAI的计算一样,需要已知高表达基因的最优密码子。FOP的取值范围为0到1之间,1表示只有最优密码子被使用,0则表示没有最优密码子被使用到。
6. 密码子偏好性指数(Codon bias index, CBI)
它反应了一个基因中高表达优越密码子的组分情况。对目的宿主自身的基因 , 该指数和 ENC 值有很好的相关性,但在实际工作中可以更明确地反映外源基因在目的宿主中可能的表达情况, 故而得到广泛应用。
7. GC含量及GC3
GC3指的是基因中所有密码子的第3位的GC含量,即除了蛋氨酸、色氨酸和终止密码子外,G和C出现在密码子第三个位置的频率。由于密码子的使用偏性与密码子第三位的GC含量有很大关系,基因的 G+C 含量以及GC3值也受到了很大关注。
分析工具
针对密码子使用分析的软件也有很多,包括CodonW,EMBOSS,GCUA等。其中,EMBOSS是一个强大的综合工具,它整合了100多个序列分析的程序,可以完成DNA和蛋白序列的各种分析,包括DNA翻译,全局或者局部序列比对等功能。这里简单介绍下怎么通过EMBOSS来计算密码子偏性。
可以网页中使用EMBOSS的功能,在线使用的地址如下:
http://www.bioinformatics.nl/emboss-explorer/
也可以下载到本地(Linux or MAC),方便批量对序列分析,下载地址如下:
http://emboss.sourceforge.net/download/
在线使用教程:
在网页的左侧找到“NUCLEIC CODON USAGE”,可以看到有5个小工具,这里介绍其中3个:
1.cai:计算CAI值
填入或者上传序列,再选择高表达基因的最优密码子表(或者使用默认),点击Run cai,就可以得到结果了
2. chips:计算ENC值
提交序列,选择是否把所有序列当成一条序列来计算ENC,点击Run chips
3. cusp:计算codon usage table(密码子使用频率表)
在这里输入高表达基因的CDS序列,就可以得到高表达基因的密码子使用频率表。输入基因组的所有CDS序列,则可以得到这个基因组的密码子使用频率表。频率表里面会包含密码子第 1、2、3 位碱基的 GC 含量(分别为 GC1、GC2、GC3)及 3 位碱基的 GC 平均含量(GCall)
Note:相对同义密码子使用度,即RSCU值,可以使用Codon W软件计算得到。
欢迎关注公众号:"生物信息学"
Ref:
Wu, X.M., Wu, S.F., Ren, D.M., Zhu, Y.P., and He, F.C. (2007). The analysis method and progress in the study of codon bias. Yi Chuan 29, 420–426.
López, J.L., Lozano, M.J., Lagares, A., Fabre, M.L., Draghi, W.O., Del Papa, M.F., Pistorio, M., Becker, A., Wibberg, D., Schlüter, A., et al. (2019). Codon Usage Heterogeneity in the Multipartite Prokaryote Genome: Selection-Based Coding Bias Associated with Gene Location, Expression Level, and Ancestry. MBio 10, 1–20.