Science | 深度学习构建蛋白质功能位点
原创 huacishu 图灵基因 2022-08-05 09:11 发表于江苏
收录于合集#前沿生物大数据分析
撰文:huacishu
IF=63.714
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者描述了用于构建此类功能位点(蛋白质的结合和催化功能通常由整个蛋白质结构保持的少量功能残基介导)的深度学习方法,第一种方法“受约束蛋白幻想(constrained hallucination)”,第二种方法是“修复(inpainting)”。
2、作者使用这两种方法设计候选免疫原、受体陷阱、金属蛋白、酶和蛋白质结合蛋白,并使用电子测试和实验测试相结合的方法验证设计。
华盛顿大学David Baker教授课题组在国际知名期刊Science在线发表题为“Scaffolding protein functional sites using deep learning”的论文。蛋白质的结合和催化功能通常由蛋白质整体结构保持的少量功能残基介导。本文作者描述了构建此类功能位点的深度学习方法,并且无需预先指定支架的折叠或二级结构。第一种方法“受限幻觉(constrained hallucination)”优化序列,使其预测的结构包含所需的功能位点。第二种方法是“修复(inpainting)”,从功能位点开始,填充额外的序列和结构,通过一个经过专门训练的网络,在一个正向通路中创建一个可行的蛋白质支架。使用这两种方法设计候选免疫原、受体陷阱、金属蛋白、酶和蛋白质结合蛋白,并使用电子测试和实验测试相结合的方法验证设计。
蛋白质的生物化学功能通常由构成功能位点的残基子集执行,例如,酶活性位点或蛋白质或小分子结合位点,因此具有新功能的蛋白质的设计可分为两个步骤。第一步是确定产生所需酶活性的功能位点几何形状和氨基酸,这可以通过量子化学计算完成,对于蛋白质粘合剂,可以通过片段对接计算完成。或者,可以从具有所需活性的天然蛋白质中提取功能位点。本文中作者重点关注第二步:给定来自任何来源的功能位点描述,设计折叠成包含该位点的三维(3D)结构的氨基酸序列。
以前的方法可以构建由一个或两个连续链段组成的功能位点,但这些方法不容易扩展到由三个或更多链段组成的更复杂位点,并且生成的主干不能保证是可设计的(即,可由某些氨基酸序列编码)。功能从头蛋白质设计的理想方法是(i)在可设计的支架蛋白质中嵌入最小的功能位点;(ii)适用于任意几何形状,在所有可能的拓扑和二级结构组成中搜索最适合容纳指定场地的结构;和(iii)共同生成骨架结构和氨基酸序列。之前已经证明,通过最大化序列折叠到某些3D结构的trRosetta输出概率,trRosetta结构预测神经网络可以用于生成新的蛋白质。作者将这一过程称为“幻觉”,因为它产生的溶液被网络视为理想蛋白质,但与任何已知的天然蛋白质都不对应;晶体和核磁共振结构证实幻觉序列折叠成幻觉结构。trRosetta还可以用于设计折叠到目标主干结构中的序列,方法是使用结构重演损失函数进行序列优化,该函数预测结构与目标结构的相似性。鉴于这种设计序列和结构的能力,推断trRosetta可以适用于解决这类问题。
使用多目标损失函数的受限制蛋白幻想
为了将现有基于trRosetta的设计方法扩展到支架功能位点(图1A),使用复合损失函数优化了氨基酸序列,以折叠到包含所需功能位点的结构,该复合损失函数将先前使用的幻觉损失与功能基序上的基序重建损失相结合(图1B)。但Rosetta结构预测表明序列对结构的编码较差,因此使用Rosetta设计计算来生成更优化的序列。一些针对程序性细胞死亡配体1(PD-L1)的设计被发现在nM范围内具有结合亲和力,这些设计是通过限制性幻想产生的,具有来自程序性细胞死亡蛋白1(PD-1)的结合基序。尽管这一实验验证令人鼓舞,但使用Rosetta进行序列设计的要求与联合设计序列和结构的目标不一致。随着RoseTTAFold(RF)的发展,作者发现它在通过功能位点限制性幻觉指导蛋白质设计方面优于trRosetta,这可能反映了更好的蛋白质序列结构关系整体建模。RoseTTAFold的受限幻觉具有进一步的优势,因为三维坐标可以在坐标水平上评估位置重演,并且可以在坐标空间中实现额外的特定于问题的损失项,以评估与目标的相互作用。
基于缺失信息恢复的广义功能基序支架
虽然功能强大且通用,但受限制蛋白幻想方法需要大量计算,因为在序列优化过程中,每个梯度下降步骤都需要通过网络向前和向后。在最近版本的RoseTTAFold的训练中,输入多序列比对中的位置子集被屏蔽,并且训练网络以恢复该缺失序列信息以及预测结构。这种恢复序列和结构信息的能力为功能位点支架问题提供了第二种解决方案:给定功能位点描述,可以使用网络的正向传递来完成或“修复”蛋白质屏蔽区中的蛋白质序列和结构(图1C)。各种各样的蛋白质结构预测和设计挑战可以类似地表述为缺失信息恢复问题(图1D)。虽然之前已经对蛋白质修复进行了探索,但在本研究中,使用预训练结构预测网络的功能进行了研究。从为结构预测训练的RoseTTAFold(RF)模型开始,除了标准的固定序列结构预测任务外,还对固定主干序列设计进行了进一步训练,以避免模型退化。该模型表示为RFimplicit,能够恢复缺失序列和结构小而连续的区域。
除了序列设计和结构预测任务外,还明确训练了一个模型,在给定周围蛋白质背景的情况下修复缺失序列和结构的片段。结果模型能够高保真地修复缺失区域(图1E),并在序列设计和结构预测方面表现良好。将此网络称为RFjoint,并使用它生成以下所有修复的设计。为了评估该方法生成的设计质量,使用了AlphaFold(AF)蛋白质结构预测网络,该网络对从头设计的蛋白质具有较高的准确性。RF和AF具有不同的结构,并且是独立训练的,以确定RF设计的序列是否折叠到预期结构中。使用AF来比较幻觉和修复重建缺失蛋白质区域的能力(图1、F和G)。修复产生的解决方案具有更准确预测的固定区域(“AF-RMSD”;图1G)和从其氨基酸序列更可靠地预测的整体结构(“AF-pLDDT”;图1F),并且在NVIDIA RTX 2080图形处理单元上每种设计只需要1到10秒。然而,当缺失区域较大并产生更大的结构多样性时,幻觉会产生更好的结果。
设计候选免疫原和受体陷阱
免疫原设计的目标是尽可能准确地构建中和抗体识别的天然表位,以诱导免疫后与天然蛋白结合的抗体。作为一个测试案例,重点研究了呼吸道合胞病毒F蛋白(RSV-F),该蛋白具有多个抗原表位,已确定具有中和抗体的结构。作者构建了RSV-F位点II,以及RSV-F位点V(图2A)。在大肠杆菌中表达了37种具有高AF-pLDDT和低基序AF-RMSD的幻觉RSV-F位点V支架,发现其中三种支架结合了中和抗体hRSV90,其解离常数(Kd)为0.9至1.3 mM(图2C)。RSVF三聚体的Kd较低(23 nM),但界面较大,包括位点II和V。两个关键表位残基中的任何一个的突变减少或取消了设计的结合,表明它们通过支架基序结合目标(图2C),圆二色谱(CD)光谱与原始幻觉(图2D)和表位突变体的设计支架结构一致。其中四个修复设计通过酵母展示结合hRSV90,但在大肠杆菌中表达较差。
总的来说,这些设计为进一步开发RSV-F表位疫苗提供了一系列有希望的线索。接下来,作者将蛋白幻想应用到受体陷阱的电子设计中,该受体陷阱通过模拟病毒的自然结合靶点来中和病毒。作为一个测试案例,作者构建了人血管紧张素转换酶2(hACE2)与严重急性呼吸综合征冠状病毒2(SARS-CoV-2)棘突蛋白受体结合域相互作用的螺旋。蛋白幻想hACE2模拟物具有一组不同的螺旋拓扑结构,AF结构预测概括了结合界面(图2B)。
设计金属配位蛋白
双铁位点在铁储存的生物系统中很重要,可以介导催化作用。作者能够使用修复(图3,A到E)和蛋白幻想,从大肠杆菌细菌铁蛋白(由四个平行螺旋段组成)到AF-RMSD,重现双铁位点。选择96个修复设计进行实验测试,发现76个具有可溶性表达,至少八个具有指示Co2+结合的光谱位移,三个(dife_inp_1、dife_inp_2和dife_inp_3;图3B)具有与设计折叠一致的CD光谱(图3D),并通过金属结合稳定(图3E)。金属结合残基的突变消除了结合(图3B),dife_inp_1的滴定分析表明,两个金属结合位点均成功支架化(图3C)。接下来,构建了钙结合EF-hand基序,这是一个12个残基的环,两侧有螺旋。约束性蛋白幻想和修复生成的支架将一个或两个EF-hand基序重新概括到原生基序的范围内(图3F)。选择了20个蛋白幻想和55个修复物在酵母上显示,并使用色氨酸增强荧光筛选钙结合。从大肠杆菌中纯化为单体的修复的EF-hand_inp_1具有预期的CD光谱(图3G)和通过CaCl2竞争消除的清晰结合信号(图3H)。
酶活性位点的电子设计
接下来,作者试图构建碳酸酐酶II的活性位点,该酶催化二氧化碳和碳酸氢盐的相互转化。活性位点由两条链上的三个Zn2+配位组氨酸和一个环上的苏氨酸组成,该环将CO2定向。尽管不规则、不连续的三段位点很复杂,但蛋白幻想能够产生基序AF RMSDs的设计,并正确放置其Zn2+配位(图4A);这些蛋白质的大小小于100个残基,远小于261个天然蛋白质残基。接下来,构建了参与甾体激素生物合成的D5-3-酮甾体异构酶(KSI)的催化侧链。使用两个阶段的方法获得了更好的结果,首先,使用AF和trRosetta和主干水平上的活性位点描述,然后在整个主干大致就位后,使用第二个AF阶段。这产生了多个看似合理的解决方案,与催化侧链几何形状几乎完全匹配(图4、C和D)。用 AF模型进行的电子验证再现了设计的活性位点。阶段特定损失函数的使用说明了蛋白幻想方法在无需网络再培训的情况下可随时定制特定设计挑战。
设计蛋白质结合蛋白
为了设计癌症检查点蛋白PD-L1的粘合剂,从PD-1的高亲和力突变体中构建了两个不连续片段(图5A)。修复产生的设计不仅具有良好的粘合剂单体AF预测,而且具有粘合剂和PD-L1之间复合物的AF预测,链间预测对齐误差(PAE)小于10Å。在为实验测试选择的31种设计中,有一种设计pdl1_inp_1,结合了Kd为326 nm的PD-L1(图5、B和C),比高亲和力共识(HAC)PD-1(Kd=110 μm)差,但比野生型PD-1(Kd=3.9 mM)好。接下来,设计了与多个受体结合位点结合的配体。神经生长因子(NGF)受体TrkA在配体结合时二聚化,从TrkA NGF晶体结构开始,定位来自先前设计的TrkA结合蛋白的两个副本的螺旋段,并使用蛋白幻想,然后进行修复,将其固定在单链上(图5、D和E)。根据生物层干涉法(BLI)评估,表达、纯化并发现一种结构良好并与TrkA相互作用的设计,并发现其与TrkA结合(图5F)。敲除两个设计结合位点的双突变体消除了TrkA结合,而敲除其中任何一个结合位点的单突变体保持部分结合(图5F),表明蛋白质结合了两个TrkA分子。
RoseTTAFold能够预测蛋白质复合物的结构,假设它可以在蛋白幻想或修复的粘合剂和支架基序之外的靶点之间产生额外的结合相互作用。使用“双链”幻想方案通过构建抑癌蛋白p53的天然N端螺旋来设计Mdm2癌基因的粘合剂,并获得了多种设计,其中AF-inter-PAE<7Å,靶向粘合剂RMSD<5Å,粘合剂pLDDT>85,空间聚集倾向(SAP)评分<35;图5G中显示了三个示例。
小结
本文提出的支架功能位点方法不需要输入所需功能位点的结构和序列以外的其他信息,并且与以前的方法不同,不需要指定支架的二级结构或拓扑结构,并且可以同时生成序列和结构。尽管最近人们对使用机器学习设计蛋白质序列的兴趣激增,但蛋白质结构的设计相对缺乏探索,可能是因为难以有效地表示和学习结构。生成性对抗网络和自动编码器已用于生成特定折叠家族的蛋白质骨架,而作者的方法利用在整个PDB上训练RoseTTAFold来生成几乎无限多样的新结构,并能够构建任何所需的功能残基。作者的“激活最大化”蛋白幻想方法通过利用其关键优势扩展了该领域的相关工作,即能够使用针对特定问题定制的任意损失函数,并设计任意长度序列而无需再培训。作者的修复方法能够从给定的功能位点扩展生成连贯的序列-结构对,由于其速度和通用性,应该在蛋白质设计中得到广泛应用。随着更精确的蛋白质结构、界面和小分子结合预测网络的开发,这两种方法各自以及两者的结合应该会提高效率。
教授介绍
David Baker教授就职于华盛顿大学。David Baker是生物化学教授、蛋白质设计研究所所长、霍华德·休斯医学研究所研究员、华盛顿大学基因组科学、生物工程、化学工程、计算机科学和物理学的兼职教授。他的研究团队专注于大分子结构、相互作用和功能的预测和设计。他是美国国家科学院和美国科学院的成员。他的研究团队在计算蛋白质设计和蛋白质结构预测方面处于世界领先地位。研究重点是蛋白质结构、蛋白质折叠机制、蛋白质-蛋白质相互作用、蛋白质-核苷酸相互作用和蛋白质-配体相互作用的预测和设计。方法是通过实验来理解这些问题的基本原理,根据这些见解开发简单的计算模型,并通过结构预测和设计来测试模型。并努力通过在计算和实验研究之间不断改进方法。Baker博士在加州大学伯克利分校兰迪·舍克曼实验室获得生物化学博士学位(2013年诺贝尔奖获得者),并发表了400多篇论文。Baker博士在蛋白质设计和蛋白质结构预测领域享有盛誉。
参考文献
Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning. Science. 2022;377(6604):387-394. doi:10.1126/science.abn2100