Science | 脸书AI研究所用语言模型对原子水平蛋白质结构作进化尺度预测
原创 朱颢璐 图灵基因 2023-03-30 09:46 发表于江苏
收录于合集#前沿生物大数据分析
撰文:朱颢璐
IF= 63.714
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者团队使用大型语言模型演示了从初级序列直接推断原子水平蛋白质结构,在蛋白质序列训练的语言模型中出现了蛋白质结构的原子分辨率图像。
2、使用语言模型加速精确的原子分辨率结构预测,使得宏基因组蛋白质的大规模结构表征成为可能。
核心词汇:
语言模型:根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。
深度学习:学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对数据的解释有很大的帮助。最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
近日,来自脸书人工智能研究所的Zeming Lin、Halil Akin、Roshan Rao、Brian Hie等人在国际知名期刊Science上发表了题为“Evolutionary-scale prediction of atomic-level protein structure with a language model”的论文。机器学习的最新进展利用多个序列比对中的进化信息来预测蛋白质结构。作者团队使用大型语言模型演示了从初级序列直接推断原子水平蛋白质结构。随着蛋白质序列的语言模型被放大到150亿个参数,在学习的表示中出现了蛋白质结构的原子分辨率图像。这导致高分辨率结构预测的数量级加速,这使得宏基因组蛋白质的大规模结构表征成为可能。作者团队利用这一能力构建了ESM宏基因组图谱,通过预测> 6.17亿个宏基因组蛋白质序列的结构,其中> 2.25亿个序列的预测具有很高的置信度,这使人们可以看到天然蛋白质的广泛广度和多样性。
在蛋白质序列训练的语言模型中出现了原子分辨率结构
作者团队首先研究高分辨率蛋白质结构的出现。通过训练一系列的变压器蛋白质语言模型,ESM-2,从800万个参数到150亿个参数。相对于上一代模型ESM-1b, ESM-2引入了架构、训练参数的改进,并增加了计算资源和数据[补充材料(SM)章节A.1.1和A.2]。由此产生的ESM-2模型家族在相当数量的参数上优于先前最先进的ESM-1b(约6.5亿个参数模型),并且在结构预测基准上也优于其他最近的蛋白质语言模型(表S1)。
训练ESM-2来预测被随机掩盖在蛋白质序列之外的氨基酸的身份:
其中,对于一个随机生成的掩码M,其中包含序列x中15%的位置i,该模型的任务是从周围的上下文x\M中预测掩码中氨基酸xi的身份,排除掩码位置。这个隐藏的语言建模目标在氨基酸之间的依赖关系中有更大的依赖关系。尽管训练目标本身简单且无监督,但在数百万个进化多样的蛋白质序列上求解它需要模型在进化过程中内化序列模式。我们期望这种训练将导致生物结构在语言模型中实现,因为它链接到序列模式。ESM-2是通过UniRef50蛋白质序列数据库中的序列进行训练的。在训练过程中,从~ 1.38亿个UniRef90序列中对~ 4300万个UniRef50训练簇进行均匀加权采样,这样在训练过程中,模型可以看到~ 6500万个唯一的序列。
当作者团队将ESM-2的参数规模从800万个增加到150亿个时,观察到它对蛋白质序列建模的保真度有了很大的提高。因为ESM-2的训练只针对序列,所以任何关于结构发展的信息都必须是表示序列中的模式的结果。已知用掩蔽语言建模训练的变形模型可以形成与蛋白质的残基-残基接触图相对应的注意模式。作者团队研究了蛋白质结构的低分辨率图像是如何作为尺度函数出现的。使用线性投影从语言模型的注意模式中提取接触图(SMA.2.1)。顶部L(蛋白质长度)预测接触的精度(远程接触精度)衡量了注意力模式与蛋白质结构的对应关系。注意模式在ESM-2中发展,对应于三级结构(图1A),缩放导致对结构的理解有了很大的提高(图1B)。预测接触的准确性随训练集中进化相关序列的数量变化。
为了识别模型中的原子分辨率信息,作者团队使用等变转换器(SM A.3.3)从语言模型的内部表示中投影出每个原子的空间坐标。通过使用蛋白质数据库(PDB)中实验确定的蛋白质结构来拟合该预测,并对194个CAMEO蛋白和51个CASP14蛋白进行评估。TM-score范围从0到1,用于测量投影与地面真相结构相比的准确性,其值为0.5,对应于正确预测折叠的阈值。评估使用时间截止,确保用于测试的蛋白质与用于拟合投影的蛋白质分开。这使得度量原子水平信息如何作为参数规模的函数出现在模型表示中成为可能。
使用语言模型加速精确的原子分辨率结构预测
语言模型极大地加速了最先进的高分辨率结构预测。语言模型内部化了与结构相关联的进化模式,从而消除了对外部进化数据库、MSAs和模板的需求。作者团队发现ESM-2语言模型直接从初级蛋白质序列生成最先进的三维(3D)结构预测,这导致在保持高分辨率精度的同时,提高了结构预测的速度。
烧蚀研究表明,语言模型表示对ESMFold性能至关重要(图S3)。使用8块折叠主干,在CAMEO测试集上的性能为0.74局部距离差测试(LDDT)(基线)。如果没有语言模型,这将大大降低到0.58 LDDT。当完全删除折叠主干(即仅使用语言模型和结构模块)时,性能降至0.66 LDDT。其他烧蚀,如结构模块只有一个块,关闭回收,不使用AlphaFold2预测结构作为提炼目标,或不使用三角更新,导致较小性能退化(LDDT变化为−0.01到−0.04)。
ESMFold提供了最先进的结构预测精度,在超过一半的蛋白质上匹配AlphaFold2的性能(<0.05 LDDT差异)(图2B)。作者团队发现,即使在一些大型蛋白质上也是如此,T1076是一个例子,TM评分为0.98,余数为540 (图2D)。在ESMFold和AlphaFold之间,结构部分低精度没有显著差异,这表明语言模型正在学习与MSAs中包含的信息相似的信息。作者团队还观察到ESMFold能够很好地预测同源和异二聚蛋白-蛋白质复合物的成分(图2D)。在与AlphaFold-Multimer对PDB中2978个最近沉积的多聚体复合体的数据集进行比较时,尽管没有对蛋白质复合体进行训练(图S4),ESMFold对53.2%的链对实现了相同的定性DockQ分类。
作者团队研究了使用语言模型从序列直接预测蛋白质结构,而不需要学习完整的原子水平结构投影,但其准确性与MSAs的使用没有竞争力。与作者团队同时开发的一种方法,使用类似的基于注意的语言模型表示处理来输出原子坐标,似乎也显示了MSAs的结果。
宏基因组学的演化尺度结构表征
这种快速和高分辨率的结构预测能力使宏基因组蛋白质的大规模结构表征成为可能。作者团队从MGnify90数据库中折叠了> 6.17亿个序列。这是长度为20到1024的全部序列,涵盖了MGnify90中所有序列的99%。总体而言,该表征产生了约3.65亿具有良好置信度的预测(平均pLDDT > 0.5和pTM > 0.5),对应于数据库的~ 59%,约2.25亿具有高置信度的预测(平均pLDDT > 0.7和pTM > 0.7),对应于折叠的总结构的~ 36%(图3)。使得能够在2周内完成约2000个GPU集群的预测(SM A.4.1)。
对于大规模的结构预测,区分预测良好的蛋白质和预测不良的蛋白质是至关重要的。在前一节中,作者团队评估了针对测试集上实验确定结构的校准,并发现模型置信度可以预测与实验确定结构的一致性,还根据宏基因组蛋白质的AlphaFold预测评估校准。在约4000个宏基因组序列的随机子集上,ESMFold pLDDT和LDDT对AlphaFold2的预测之间存在高度相关性(Pearson r=0.79)(图3A)。当与CAMEO的结果相结合时,表明当置信度非常高时(pLDDT > 0.9),ESMFold预测通常接近实验精度。这些发现意味着ESMFold的置信度得分很好地表明了与实验结构的一致,并与可以从AlphaFold2中获得的预测一致。在6.17亿个预测结构中,有1.13亿个结构达到了非常高的置信阈值。
许多宏基因组结构预测具有很高的置信度(图B),并且在现有的结构数据库中没有表示(图3C-E)。在100万个高置信结构的随机样本中,76.8%(767,580)的蛋白质与UniRef90中的任意序列的序列同一性低于90%,这表明这些蛋白质与现有的UniRef90序列不同(图3 E)。对于3.4%(33,521个蛋白质),在UniRef90中根本没有找到匹配(SM A.4.2)。
作者团队使用Foldseek将预测结构与PDB中的已知结构进行比较。在TM-评分为0.7和0.5的阈值时,Foldseek分别报告了25.4%(253,905个蛋白质)和12.6%(125,765个蛋白质)的不匹配(图3C和图D)。2.6%(25,664个蛋白质)的结构相似度较低(TM-评分≤0.5),且没有紧密的序列同源(>30%的同源性)。在这些次抽样估计的基础上,有大约2800万个蛋白质(2.25亿个蛋白质中的12.6%)对已知的蛋白质结构具有高置信预测和TM-评分< 0.5(图A和表S2中的例子)。
这些结果表明,ESMFold可以有效地描述与现有知识相距甚远的蛋白质空间区域。在缺乏序列相似性的情况下,大规模的结构表征也存在一些不一致的地方。许多与UniRef90序列相似度低的高置信结构在PDB中确实具有相似的结构。这种远程同源性通常超出了序列相似性所能检测到的极限。检测结构中遥远的相似性的能力使得作者团队能够洞察无法从序列中获得的功能。
所有预测的结构都可以在ESM宏基因组图谱(https://esmatlas.com)中作为开放的科学资源获得。通过应用程序编程接口(API)和提供按结构和顺序搜索的网络资源,结构可以批量下载。这些工具有助于对数亿个预测结构的全部范围进行大规模和集中的分析。
结论
快速准确的计算结构预测有可能加速一个时代的进展,在这个时代,人们有可能了解在基因测序实验中发现的所有蛋白质的结构。这些工具有望深入了解蛋白质的巨大自然多样性,其中大多数都是在宏基因组测序中发现的。为此,作者团队完成了宏基因组蛋白质的大规模结构表征,揭示了数亿种蛋白质的预测结构,其中数百万种蛋白质预计与实验确定的结构不同。
随着结构预测继续扩展到更大数量的蛋白质,校准变得至关重要,因为当预测的吞吐量受到限制时,预测的准确性和速度在可以生成的准确预测数量中形成联合边界。宏基因组图谱的高可信度预测通常被期望在足够的分辨率上可靠,以洞察类似于实验确定的结构,例如活性位点的生物化学。对于更多的拓扑结构可以可靠预测的蛋白质,可以通过远程结构关系获得对功能的洞察,否则无法通过序列检测到。
语言模型中原子水平结构的出现展示了一幅由进化编码成蛋白质序列的高分辨率图像,可以用无监督学习捕获。目前作者团队的模型在参数、序列数据和计算能力方面还远远没有达到原则上可以应用的极限。随着继续扩大规模,可能会有进一步的涌现。作者团队的结果显示,在低深度蛋白质建模方面的改进指向了这个方向。ESM-2的结果是在速度上的进步,实际上达到了一到两个数量级,这使得更大数量的序列可以实现精确的原子水平预测。演化尺度上的结构预测可以深入了解蛋白质的自然多样性,加速发现蛋白质的结构和功能。
教授介绍
Zeming Lin,脸书人工智能研究所的研究工程师,从事后端基础设施工作,弗吉尼亚大学的硕士学位和学士学位,研究机器学习的应用,特别是在蛋白质结构预测和安全方面,对深度学习、结构预测和生物信息学感兴趣。
参考文献
Lin Z, Akin H, Rao R, Hie B, Zhu Z, Lu W, Smetanin N, Verkuil R, Kabeli O, Shmueli Y, Dos Santos Costa A, Fazel-Zarandi M, Sercu T, Candido S, Rives A. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023 Mar 17;379(6637):1123-1130. doi: 10.1126/science.ade2574. Epub 2023 Mar 16. PMID: 36927031.