1972年诺贝尔奖得主克里斯蒂安·安芬森(在诺奖颁奖典礼上曾提出猜想:一个蛋白的氨基酸序列应该能完全决定这个蛋白的结构;而蛋白作为生命的基本构件,其结构与生命的各种功能息息相关。因此,半个世纪以来,科学家努力尝试着利用氨基酸序列预测蛋白结构。但到现在依旧没有突破。现在,一个来自DeepMind的人工智能算法,终于一举解决了这个问题。让我们来看看吧!
这个算法名为“AlphaFold”,由DeepMind公司开发。DeepMind发布于6年前的围棋算法AlphaGo,至今已无人能敌。
人类已知的所有生命都由蛋白构成,这些有机分子构成了我们与世界交互的基本元件。以视觉为例:我们眼中的感光细胞都拥有感光蛋白,感测光子,并将光信号转化为大脑能理解的电化学信号。与任何蛋白一样,人类视杆细胞中的感光蛋白视紫红质是由氨基酸组成的;视紫红质由348个氨基酸连接而成。然而,尽管视紫红质的氨基酸序列在上世纪80年代就已测出,其结构却直到2000年才被首次揭开。将近20年的时间跨度,凸显了半个世纪以来一直困扰着生物学家的计算难题:已知一个蛋白的氨基酸序列,要怎样才能求出其三维结构?
蛋白的功能取决于其三维结构,而在自然环境中,蛋白通常能自发地在数秒内折叠成具有功能性的特定三维形状。对于现代生物学来说,测出一个蛋白的氨基酸序列相对简单(可用蛋白质谱法),但确定蛋白的三维结构则非常难(需要用到X射线晶体学和冷冻电镜)。科学家们通过数十年的研究,但还是收获甚微。最高的GTA只有40(GTA是用来评定结构准确性的指数,最高为100)。
AlphaFold的第一次亮相在2018年。获得了将近60分的GDT分数,比第二名高出了15%。今年更是取得了接近九十分的好成绩。
AlphaFold的工作原理分为两步。第一步是多序列校准,与一同参赛的其它算法没有区别,意在将已知的氨基酸序列与数据库内的序列对比,找出那些“喜欢待在一起”的氨基酸,再通过进一步分析模拟出每个氨基酸之间的距离,从而得出初步预测。但这远远不够,毕竟不是每一种三维结构都符合物理规则。于是在第二步中,AlphaFold会基于氨基酸序列,创造出一个符合物理规则的随机三维结构,然后用深度学习中常用的梯度下降法改进第一步中得出的预测。从而取得相对准确的结构。
AlphaFold的参赛结果,意味着今后要对蛋白结构进行高效、简便且精准的预测,仅需初步的试验数据即可。拥有这些蛋白结构的助力,疾病、演化等领域的研究将得到强大的推动。有了AlphaFold的帮助,我们就能快速利用发生变动的氨基酸序列,预测疾病中异常蛋白的结构,从而有针对性地进行下一步研究。同样意味着生物学家终于从预测蛋白结构的苦劳中被解放出来,能够着手应对更新、更需要创造力的任务。
随着人工智能技术的发展,一些曾经遥不可及的难题逐渐变得触手可得,同样也给了科学家们更多的时间和更大的机会去研究那些更高端更重要的问题,我们也期待着在不远的将来可以有更多的发现!
这期长图就到这里了,我们下期再见!