2023-03-30

Science | 脸书AI研究所用语言模型对原子水平蛋白质结构作进化尺度预测

原创朱颢璐图灵基因 2023-03-30 09:46 发表于江苏

收录于合集#前沿生物大数据分析

撰文：朱颢璐

IF= 63.714

推荐度：⭐⭐⭐⭐⭐

亮点：

1、作者团队使用大型语言模型演示了从初级序列直接推断原子水平蛋白质结构，在蛋白质序列训练的语言模型中出现了蛋白质结构的原子分辨率图像。

2、使用语言模型加速精确的原子分辨率结构预测，使得宏基因组蛋白质的大规模结构表征成为可能。

核心词汇：

语言模型：根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

深度学习：学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对数据的解释有很大的帮助。最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

近日，来自脸书人工智能研究所的Zeming Lin、Halil Akin、Roshan Rao、Brian Hie等人在国际知名期刊Science上发表了题为“Evolutionary-scale prediction of atomic-level protein structure with a language model”的论文。机器学习的最新进展利用多个序列比对中的进化信息来预测蛋白质结构。作者团队使用大型语言模型演示了从初级序列直接推断原子水平蛋白质结构。随着蛋白质序列的语言模型被放大到150亿个参数，在学习的表示中出现了蛋白质结构的原子分辨率图像。这导致高分辨率结构预测的数量级加速，这使得宏基因组蛋白质的大规模结构表征成为可能。作者团队利用这一能力构建了ESM宏基因组图谱，通过预测> 6.17亿个宏基因组蛋白质序列的结构，其中> 2.25亿个序列的预测具有很高的置信度，这使人们可以看到天然蛋白质的广泛广度和多样性。

在蛋白质序列训练的语言模型中出现了原子分辨率结构

作者团队首先研究高分辨率蛋白质结构的出现。通过训练一系列的变压器蛋白质语言模型，ESM-2，从800万个参数到150亿个参数。相对于上一代模型ESM-1b, ESM-2引入了架构、训练参数的改进，并增加了计算资源和数据[补充材料(SM)章节A.1.1和A.2]。由此产生的ESM-2模型家族在相当数量的参数上优于先前最先进的ESM-1b(约6.5亿个参数模型)，并且在结构预测基准上也优于其他最近的蛋白质语言模型(表S1)。

训练ESM-2来预测被随机掩盖在蛋白质序列之外的氨基酸的身份:

其中，对于一个随机生成的掩码M，其中包含序列x中15%的位置i，该模型的任务是从周围的上下文x\M中预测掩码中氨基酸xi的身份，排除掩码位置。这个隐藏的语言建模目标在氨基酸之间的依赖关系中有更大的依赖关系。尽管训练目标本身简单且无监督，但在数百万个进化多样的蛋白质序列上求解它需要模型在进化过程中内化序列模式。我们期望这种训练将导致生物结构在语言模型中实现，因为它链接到序列模式。ESM-2是通过UniRef50蛋白质序列数据库中的序列进行训练的。在训练过程中，从~ 1.38亿个UniRef90序列中对~ 4300万个UniRef50训练簇进行均匀加权采样，这样在训练过程中，模型可以看到~ 6500万个唯一的序列。

当作者团队将ESM-2的参数规模从800万个增加到150亿个时，观察到它对蛋白质序列建模的保真度有了很大的提高。因为ESM-2的训练只针对序列，所以任何关于结构发展的信息都必须是表示序列中的模式的结果。已知用掩蔽语言建模训练的变形模型可以形成与蛋白质的残基-残基接触图相对应的注意模式。作者团队研究了蛋白质结构的低分辨率图像是如何作为尺度函数出现的。使用线性投影从语言模型的注意模式中提取接触图(SMA.2.1)。顶部L(蛋白质长度)预测接触的精度(远程接触精度)衡量了注意力模式与蛋白质结构的对应关系。注意模式在ESM-2中发展，对应于三级结构(图1A)，缩放导致对结构的理解有了很大的提高(图1B)。预测接触的准确性随训练集中进化相关序列的数量变化。

为了识别模型中的原子分辨率信息，作者团队使用等变转换器(SM A.3.3)从语言模型的内部表示中投影出每个原子的空间坐标。通过使用蛋白质数据库(PDB)中实验确定的蛋白质结构来拟合该预测，并对194个CAMEO蛋白和51个CASP14蛋白进行评估。TM-score范围从0到1，用于测量投影与地面真相结构相比的准确性，其值为0.5，对应于正确预测折叠的阈值。评估使用时间截止，确保用于测试的蛋白质与用于拟合投影的蛋白质分开。这使得度量原子水平信息如何作为参数规模的函数出现在模型表示中成为可能。

使用语言模型加速精确的原子分辨率结构预测

语言模型极大地加速了最先进的高分辨率结构预测。语言模型内部化了与结构相关联的进化模式，从而消除了对外部进化数据库、MSAs和模板的需求。作者团队发现ESM-2语言模型直接从初级蛋白质序列生成最先进的三维(3D)结构预测，这导致在保持高分辨率精度的同时，提高了结构预测的速度。

烧蚀研究表明，语言模型表示对ESMFold性能至关重要(图S3)。使用8块折叠主干，在CAMEO测试集上的性能为0.74局部距离差测试(LDDT)(基线)。如果没有语言模型，这将大大降低到0.58 LDDT。当完全删除折叠主干(即仅使用语言模型和结构模块)时，性能降至0.66 LDDT。其他烧蚀，如结构模块只有一个块，关闭回收，不使用AlphaFold2预测结构作为提炼目标，或不使用三角更新，导致较小性能退化(LDDT变化为−0.01到−0.04)。

ESMFold提供了最先进的结构预测精度，在超过一半的蛋白质上匹配AlphaFold2的性能(<0.05 LDDT差异)(图2B)。作者团队发现，即使在一些大型蛋白质上也是如此，T1076是一个例子，TM评分为0.98,余数为540 (图2D)。在ESMFold和AlphaFold之间，结构部分低精度没有显著差异，这表明语言模型正在学习与MSAs中包含的信息相似的信息。作者团队还观察到ESMFold能够很好地预测同源和异二聚蛋白-蛋白质复合物的成分(图2D)。在与AlphaFold-Multimer对PDB中2978个最近沉积的多聚体复合体的数据集进行比较时，尽管没有对蛋白质复合体进行训练(图S4)，ESMFold对53.2%的链对实现了相同的定性DockQ分类。

作者团队研究了使用语言模型从序列直接预测蛋白质结构，而不需要学习完整的原子水平结构投影，但其准确性与MSAs的使用没有竞争力。与作者团队同时开发的一种方法，使用类似的基于注意的语言模型表示处理来输出原子坐标，似乎也显示了MSAs的结果。

宏基因组学的演化尺度结构表征

这种快速和高分辨率的结构预测能力使宏基因组蛋白质的大规模结构表征成为可能。作者团队从MGnify90数据库中折叠了> 6.17亿个序列。这是长度为20到1024的全部序列，涵盖了MGnify90中所有序列的99%。总体而言，该表征产生了约3.65亿具有良好置信度的预测(平均pLDDT > 0.5和pTM > 0.5)，对应于数据库的~ 59%，约2.25亿具有高置信度的预测(平均pLDDT > 0.7和pTM > 0.7)，对应于折叠的总结构的~ 36%(图3)。使得能够在2周内完成约2000个GPU集群的预测(SM A.4.1)。

对于大规模的结构预测，区分预测良好的蛋白质和预测不良的蛋白质是至关重要的。在前一节中，作者团队评估了针对测试集上实验确定结构的校准，并发现模型置信度可以预测与实验确定结构的一致性，还根据宏基因组蛋白质的AlphaFold预测评估校准。在约4000个宏基因组序列的随机子集上，ESMFold pLDDT和LDDT对AlphaFold2的预测之间存在高度相关性(Pearson r=0.79)(图3A)。当与CAMEO的结果相结合时，表明当置信度非常高时(pLDDT > 0.9)，ESMFold预测通常接近实验精度。这些发现意味着ESMFold的置信度得分很好地表明了与实验结构的一致，并与可以从AlphaFold2中获得的预测一致。在6.17亿个预测结构中，有1.13亿个结构达到了非常高的置信阈值。

许多宏基因组结构预测具有很高的置信度(图B)，并且在现有的结构数据库中没有表示(图3C-E)。在100万个高置信结构的随机样本中，76.8%(767,580)的蛋白质与UniRef90中的任意序列的序列同一性低于90%，这表明这些蛋白质与现有的UniRef90序列不同(图3 E)。对于3.4%(33,521个蛋白质)，在UniRef90中根本没有找到匹配(SM A.4.2)。

作者团队使用Foldseek将预测结构与PDB中的已知结构进行比较。在TM-评分为0.7和0.5的阈值时，Foldseek分别报告了25.4%(253,905个蛋白质)和12.6%(125,765个蛋白质)的不匹配(图3C和图D)。2.6%(25,664个蛋白质)的结构相似度较低(TM-评分≤0.5)，且没有紧密的序列同源(>30%的同源性)。在这些次抽样估计的基础上，有大约2800万个蛋白质(2.25亿个蛋白质中的12.6%)对已知的蛋白质结构具有高置信预测和TM-评分< 0.5(图A和表S2中的例子)。

这些结果表明，ESMFold可以有效地描述与现有知识相距甚远的蛋白质空间区域。在缺乏序列相似性的情况下，大规模的结构表征也存在一些不一致的地方。许多与UniRef90序列相似度低的高置信结构在PDB中确实具有相似的结构。这种远程同源性通常超出了序列相似性所能检测到的极限。检测结构中遥远的相似性的能力使得作者团队能够洞察无法从序列中获得的功能。

所有预测的结构都可以在ESM宏基因组图谱(https://esmatlas.com)中作为开放的科学资源获得。通过应用程序编程接口(API)和提供按结构和顺序搜索的网络资源，结构可以批量下载。这些工具有助于对数亿个预测结构的全部范围进行大规模和集中的分析。

结论

快速准确的计算结构预测有可能加速一个时代的进展，在这个时代，人们有可能了解在基因测序实验中发现的所有蛋白质的结构。这些工具有望深入了解蛋白质的巨大自然多样性，其中大多数都是在宏基因组测序中发现的。为此，作者团队完成了宏基因组蛋白质的大规模结构表征，揭示了数亿种蛋白质的预测结构，其中数百万种蛋白质预计与实验确定的结构不同。

随着结构预测继续扩展到更大数量的蛋白质，校准变得至关重要，因为当预测的吞吐量受到限制时，预测的准确性和速度在可以生成的准确预测数量中形成联合边界。宏基因组图谱的高可信度预测通常被期望在足够的分辨率上可靠，以洞察类似于实验确定的结构，例如活性位点的生物化学。对于更多的拓扑结构可以可靠预测的蛋白质，可以通过远程结构关系获得对功能的洞察，否则无法通过序列检测到。

语言模型中原子水平结构的出现展示了一幅由进化编码成蛋白质序列的高分辨率图像，可以用无监督学习捕获。目前作者团队的模型在参数、序列数据和计算能力方面还远远没有达到原则上可以应用的极限。随着继续扩大规模，可能会有进一步的涌现。作者团队的结果显示，在低深度蛋白质建模方面的改进指向了这个方向。ESM-2的结果是在速度上的进步，实际上达到了一到两个数量级，这使得更大数量的序列可以实现精确的原子水平预测。演化尺度上的结构预测可以深入了解蛋白质的自然多样性，加速发现蛋白质的结构和功能。

教授介绍

Zeming Lin，脸书人工智能研究所的研究工程师，从事后端基础设施工作，弗吉尼亚大学的硕士学位和学士学位，研究机器学习的应用，特别是在蛋白质结构预测和安全方面，对深度学习、结构预测和生物信息学感兴趣。

参考文献

Lin Z, Akin H, Rao R, Hie B, Zhu Z, Lu W, Smetanin N, Verkuil R, Kabeli O, Shmueli Y, Dos Santos Costa A, Fazel-Zarandi M, Sercu T, Candido S, Rives A. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023 Mar 17;379(6637):1123-1130. doi: 10.1126/science.ade2574. Epub 2023 Mar 16. PMID: 36927031.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,681评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,710评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,623评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,202评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,232评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,368评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,795评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,461评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,647评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,476评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,525评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,226评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,785评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,857评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,090评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,647评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,215评论 2赞 341

2023-03-30

推荐阅读更多精彩内容