1.背景
蛋白质磷酸化是生物体中较常见的一种蛋白质翻译后修饰方式,它可以通过激发、调节诸多信号通路进而参与调控生物体生长、发育、逆境应激、疾病发生等多种生命过程,所以磷酸化一直是生物学研究的重点与热点。磷酸化的定量方法如下:
但是由于以下原因导致目前大多数研究集中在单个磷酸化蛋白与激酶上,或仅限于使用聚类与富集分析的方法:
(1)每个激酶潜在的靶点数目(磷酸化位点)往往很多。
(2)充当激酶靶点的蛋白可在多个位点被磷酸化。
(3)每个位点也可能被多个激酶靶向。
注:激酶是使蛋白磷酸化,而磷酸酶则相反。
在这里,我们介绍一种机器学习算法,该算法根据PhosphoSitePlus数据库中的激酶目标信息从磷酸化蛋白质组学数据推断激酶的活性。通过将估计的激酶活性谱与测得的磷酸化位点谱进行比较,得到最可能磷酸化相应磷酸化位点的激酶。
2.方法
该方法由一系列MATLAB函数组成,主要分为三大部分:
(1)激酶活性的估计。
(2)推断激酶与靶点的关联。
(3)通过数据库、文献等信息进行验证。
2.1激酶活性的估计
(1)对于每个磷酸化位点(蛋白序列),在PSP数据库中搜索出会使其磷酸化的激酶。
(2)通过蛋白质组数据筛选找到的激酶,确保所研究的细胞中存在这些激酶(可选)。后去掉那些在数据库中没有注释激酶信息的磷酸化位点。[data_red,kin]
(3)第三步是为简化后的数据集中的激酶-磷酸位点相互作用生成真值表。有相互作用code为1,否则code为0。[A]
(4)利用data_red、kin、A,找到最能解释所用数据的激酶活性。
下面是一些定义:
下面为示例模型:
2.2推断激酶与靶点关联
在这一部分中,将计算出的活性谱用于通过相关系数推断每个磷酸位点最可能的激酶。这里有一个假设:一个位点的磷酸化状态与主导该位点磷酸化的激酶的活性相关。如果一个位点有一个主导激酶,那么该位点的磷酸化状态和激酶的活性会导致高相关系数。因此,高度显著的相关性指向激酶与底物关联。
(1)通过计算估计出的激酶活性谱与测得的磷酸位点之间的相关系数,计算出所有激酶-磷酸位点的p值。(dist)
(以新生成的距离矩阵(dist)、激酶列表(kin)、期望的FDR,生成psig(含所有显著的激酶-磷酸位点及p值)
2.3验证
现在我们已经得出了每个磷酸位点最可能的激酶,我们通过IPA和MetaBase的数据库信息以及NetworKIN的基序信息来验证新发现的相互作用。
(1)生成一个列表pnsig,该列表具有与psig相同的大小,并包含随机获取的激酶-磷酸位点关联以进行比较。
(2)为了验证我们的显著的联系,我们建立了在IPA和MetaBase数据库中存在的所有激酶靶点联系的列表。
(3)通过NetworKIN以基于motif的方式检查所发现的相互作用的可能性,该数据库通过将序列特异性与STRING数据库中的细胞环境相结合来模拟激酶信号网络。
3.结果
3.1激酶活性以及最有可能的激酶-靶点对
对于HeLaS3数据,测量的值相对于相应的蛋白丰度变化进行标准化,以确定是磷酸化状态的变化,而不是蛋白丰度的变化。这里,所有的值都以log2的形式给出,并且位于区间[-15,15]内。数据总共包含24714个磷酸位点,是在六个细胞周期阶段G1,G1 / S,early S,late S,G2和M测量得到的。
通过应用IKAP第1部分,我们首先获得了包含1069个磷酸位点的简化数据集,其中至少有一个激酶是从PSP已知的。通过蛋白质组学对获得的激酶进行筛选,得到了一个包含118个激酶的列表 ,这些激酶在HeLaS3中表达,已知可使我们数据集中的一个肽在相应位置磷酸化。通过应用迭代次数为100的第4步,我们估计了六个细胞周期阶段中这118种激酶的活性。
注:mit代表HeLaS3有丝分裂,i.d.代表小鼠胰岛素动态变化。
仅仅介绍HeLaS3数据集的结果
(1)表1显示了在每个细胞周期阶段的五个活性最高和活性最低的激酶。在所有阶段中,我们看到五个上调的激酶中至少有一个MAP激酶途径的成员。这表明该途径在HeLaS3细胞中特别活跃。
(2)图3显示了激酶的平均活性。我们可以看到,总体激酶活性在G1和G2时最高,在S和M期最低,这是我们所期望的(这两个时期是合成蛋白的时期)。
(3) 估计的激酶谱图及最有可能的激酶-靶点对。蓝色的为激酶,红色为磷酸化位点(靶点)。
3.2验证
本文由博客一文多发平台 OpenWrite 发布!