摘要
深度学习模型能过够准确的预测分子属性,并使得潜在的药物候选研究更快更有效率。许多现存的方法都是纯文本驱动的,聚焦于探索分子的内在拓扑结构和结构规则,而没有关注任何化学先验信息。高度的数据独立性使得这些方法很难泛化到一个更广的化学领域,并导致了预测缺乏可解释性。这里,为了解决这个问题,我们提出了一种面向化学元素的知识图谱,来综合元素以及和它们密切相关的官能团的基础知识。我们还进一步提出了一种具有功能提示的知识图增强型分子对比学习的方法(KANO),在预训练和微调阶段都用了外部基础领域知识。特别地,用面向元素的知识图谱作为一个先驱,我们首先在基于对比的预训练模型中设计了一种元素引导的图增强器,在不违反分子规则的前提下探索显微原子关系。然后,我们在微调阶段学习功能提示来唤醒预训练模型获得的下游相关的知识。大量的实验表明KANO在14个分子属性预测数据集中胜过最先进的基线,并且KANO为其预测结果提供了充分的化学解释。这项工作通过提供一个高质量知识先驱,可解释的分子表示和优秀的预测表现,为更高效的药物设计提供了标帮助。
1.研究背景与意义
因此,利用基础的化学知识作为一个先驱区引导模型去探索显微级分子的化学语义和挖掘在预训练和微调有意义的模式是很重要的。
作为典型的自监督学习方法,对比学习吸引了更多的研究兴趣。对比相似的对子并且最大化他们之间的相似性,现存的方法依赖于节点删除、边缘扰动和子图抽取等通用的图增强方法。然而,这些方法与分子图是不适用的,原因是大量的因添加或删除化学键和原子而产生的影响会改变分子的性质和特性。除此之外,大多数现存的方法仅仅只关注通过化学键建立起来的分子间的连接,因此没有能够充分地挖掘出分子图中原子间更深层次的关系,这也强调了整合外部领域知识的关键之处。
另一个被忽视的问题是预训练任务和下游任务有很大的区别。直接将预训练的表示应用到下游任务可能会造成次优性能。在本文中,值得强调的是,我们提议在基于基础化学知识的微调期间提供一个化学提示缩小这一差距。受启发于prompt-tuning,一个已经在很多领域的自然语言处理任务中有出色的表现的新兴范式,为基于基础化学知识的分子图设计合适的提示去实现更可靠的预测是很重要的。
为此,我们提出了一个面向化学元素的知识图谱,它用一种有条理的和有标准的方式整合了元素和功能组的基础知识。然后我们利用了其所包含的基础化学知识作为预训练和微调的先驱,并且提出一种新的利用功能提示的知识图谱增强的分子对比学习。
首先,我们建立了一个基于元素周期表和维基百科页面的化学元素知识图谱(ElementKG),ElementKG从一个化学元素的角度提供了一个全面的、标准化的观点,这构成了我们工作的基础。ElementKG涵盖了元素的类层次结构、元素的化学特质,元素之间的关系、有关联的官能团,以及官能团之间的联系和他们的组成元素。
第二,我们在对比预训练中提出了一个元素引导的图增强器。我们在ElementKG的元素知识的引导下增强了原来的分子图,提取了元素间的大量关系和共享相同的元素类别但不是直接用化学键连接的分子间的联系。得到的增强图遵循了分子的化学语义并期望建立了超过结构信息的原子间的基本联系。除此之外,还开发了一个对比学习框架,避免外部知识不加选择的植入和通过允许两个图来互相补全对方的方式来降低注入噪声。
第三,我们提出了功能提示来缩小预训练对比任务和下游分子特性预测任务之间的差距。由于一组原子以特定的形式连接在一起,官能团在决定母分子的特性中发挥了至关重要的作用,因此与下游任务密切相关。因此,在微调阶段,我们利用ElementKG中的官能团知识去生成功能提示,提示预训练模型去回忆与功能相关的知识。
最终,我们在14中分子特性的预测上彻底的评价KANO,证实了它相对于其他竞争基线的优势。我们还做了大量的实验去证明KANO每个组成部分的必要性,并调查了他的健壮性和可解释性。
结果
KANO概述
在本文中,我们提出了KANO,一种新的利用功能提示的知识图谱增强的分子对比学习。它包含了三个主要成分:ElementKG的建立和嵌入、基于对比的预训练和提示增强的微调。
(1)ElementKG的建立和嵌入
化学领域的知识对于分子分析来说是至关重要的,将其整合为结构化的数据能够使它更加标准化且利用起来更加简便。一些研究人员已经建立了公开化学数据集和科学文献的知识图谱去提取化学药品和疾病或药物对之间的联系。然而,对比这些方法,我们专注于最基础的化学知识——化学元素。一个世纪之前,元素周期表已经演变成了一个相互关联且完整的元素体系,揭示了复杂的真实世界的内在规律,使得化学研究实现了从现象到本质的飞跃。然而一个最近的研究提出了一个整合了元素以及相关的化学特性的知识图谱,他的基本关系不足以容纳全面的和有组织挑理的基本化学知识。为了提供一个元素周期表的完整视图,我们建立了一个面向元素的知识图谱,它梳理了元素的类层次结构,数据属性和客观属性。除此之外,我们意识到了官能团的重要性以及它们与化学元素之间的密切联系,因此,我们从维基百科页面收集了有关官能团的相关知识去使得ElementKG更加信息性。
ElementKG包含两层:实例层和类层,在图2中分别用红色和蓝色表示。在实例层,化学元素和官能团被视为ElementKG的实体,用红块表示。为了记录每个元素的不同化学属性(比如电子亲合能和沸点)和每个官能团的组成(比如连接方式),我们应用了可将文字数据数据属性赋值到实体的数据属性。虚线块代表其上红色块实体的数据属性。此外,如红色箭头所示,我们通过客观属性建立了实体间的联系,比如元素间的化学属性联系、元素和官能团之间的包含关系。然后我们对所有的实体基于它们的共性进行分类,由此产生了ElementKG的类层。实体通过rdf:type被分配给相应的类,用黑色箭头表示。蓝色块代表了不同的班级,同时蓝色箭头反应了类之间的包含关系(rdfs:subClassOf)或不连贯关系 (owl:disjointWith)。特别是,类之间的subClassOf关系形成类层次结构,他是 ElementKG的骨干。
图嵌入方法采用OWL2Vec*。
(2)基于对比的预训练
在获取了ElementKG和它的图嵌入之后,我们打算将其加入到预训练中去增强模型对于基础领域知识的理解能力。我们使用了一个对比学习方法用大量未标记的分子去预训练一个知识图谱编码器,使用ElementKG中最基本的元素知识。传统的创建正对对比学习的图增强技术通常涉及删除节点或扰动边,这可能会违反分子内的化学语义。为了解决这个问题并且建立原子间更有意义的联系,我们提出了一个元素领导的图增强方法去创建正对对比学习。
如图3所示,我们首先确定一个给定分子的元素种类(如C、N和O),以及检索他们的相关实体和ElementKG中的关系(如(N, hasStateGas, O), (O, inPeriod2, C)),这就形成了一个描述使用它们的相关实体和关系的元素的关系的元素关系子图。我们连接子图中的元素实体节点到他们在原始分子图中相应的原子节点,生成一个增强分子图,改图包含了包含了基础领域信息并捕获了相同元素类型的原子之间的重要联系,尽管他们之间没有直接通过化学键连接。我们的方法在包含了重要的化学语义的同时还保存了拓扑结构。
除此之外,我们用一个对比学习框架通过最大化原始分子图和增强分子图之间的一致性来训练图编码器,而不是五擦汗别的嵌入增强图中的元素知识。
给定N个随机采样分子,我们通过使用元素引导的图增强器将它们的分子图转化成N个增强图,这样就得到了2N个图。将2(N-1)个非正对图对作为负对,一个正对表示一个原始图和一个对应增强图。首先将2N个图利用图编码器去提取它们的嵌入向量,然后用一个非线性网络将嵌入向量映射到一个应用对比损失的空间中,产生两个新的表示。最终,对比损失用于最大化正对之间的一致性,同时最小化负对之间的一致性。
(3)提示增强的微调
预训练之后,分子图编码器需要为下游的属性预测进行微调。具体来说,输入的分子图G被喂给预训练图编码器去提取图嵌入向量,然后被喂给预测器去输出属性值。为了减小预训练对比任务和下游任务的差距,我们提出了使用官能团知识作为提示去刺激预训练图编码器。
我们从ElementKG的官能团知识种生成功能提示。首先,我们检测输入分子的所有官能团,检索他们在ElementKG中的相应的实体嵌入向量,并构造一个可学习的嵌入向量去捕获每个官能团的重要性。然后,我们运用一个自监督机制在中介嵌入向量和官能团实体的嵌入向量上,去综合它们的语义并获得功能提示。最终,将功能提示加入到输入的分子图的原子的原始表示中,用一个可学习比例参数去生产提示增强的分子图,然后喂给预训练图编码器和分子属性预测的预测器。
KANO增强了属性预测的性能
人们感兴趣的分子属性在规模上会有很大的不同,从对人体的宏观影响到微观电子属性,比如药品副作用,抑制人类免疫缺陷病毒(HIV)复制的能力和水合自由能。为了评估KANO的效果,我们评估了它在四种数据集上的性能:生理学、生物学、物理化学和量子力学。
表1和表2呈现了各种有监督和自监督方法的结果。
表1介绍了在生理学和生物学的分类任务上的测试受试者的工作特征-曲线下面积。
(1)KANO在所有8个数据集上的性能始终优于其他方法,显著提高了3.79%,显示了其有效性。
(2)KANO在多任务学习数据集上,如Tox21、ToxCast、SIDER和MUV。特别是,KANO通过617个二进制分类任务,在ToxCast数据集上实现了3.39%的改进。鲁棒性能表明,其表示涵盖了不同的分子语义。
表2介绍了在物理化学和量子力学中的回归任务的测试性能。
(1)KANO在监督模型和自我监督模型中得分最高,在所有6个回归任务上比之前的记录相对提高了15.8%。
(2)KANO的细粒度化学理解帮助它在量子力学数据集上实现了显著的准确性,甚至超过了包含额外3D信息的模型。
(3)KANO极大地帮助了标签信息有限的任务,在ESOL和FreeSolv的小数据集上,分别只有1128和642个标记分子,平均提高了21.7%。
总之,KANO在所有基准测试中都优于其他模型,这证明了将ElementKG集成到训练前和微调阶段的有效性。KANO不仅优于其他SSL方法,而且证明了其优于监督方法的优越性,为泛化到更广泛的化学空间提供了竞争优势。
知识图谱中更丰富的知识产生了更健壮的表示
ElementKG在KANO架构中是至关重要的,因为它引导了分子增强器和功能提示的产生。为了确定它的各种组成成分的贡献度,我们使用了不同知识图谱的组成成分来评价KANO的性能,比如说类结构层次,数据属性和官能团知识。我们仅仅在预训练阶段修理ElementKG的组成成分并在微调阶段保持这个实验配置和原始的KANO一致。
从图5中可知:
(1)使用完整的ElementKG架构(“完整的ElementKG”)在所有数据集上都优于其他版本,突出了每个组件的不可或缺性。
(2)删除类层次结构(w/o class hierarchy)会导致性能下降,强调了类划分和子类之间的传递关系在细化和转移基本领域知识中的重要性。
(3)从ElementKG中排除官能组(w/o functional group)会导致性能显著下降,强调了官能团的关键作用。
(4)排除实体的数据属性(w/o data properties)几乎总是表现最差,这强调了化学属性的重要性。
为了进一步调查数据属性的影响,每个元素包含超过15个数据属性,我们掩盖了其中的一定比例,并报告了四类任务的测试性能。
从图6中可以看出:随着保留属性比例的增加,该模型的性能不断提高,验证了更丰富的数据属性提供了更全面的基础知识,从而使学习更稳健的分子表示。
对比学习产生的高质量特征空间
表示空间的质量可以通过两个关键属性来评估:对齐性和均匀性。前者表示相似的样本应该映射到相近的嵌入中,而后者表示特征向量应该均匀地分布在单位超球面上,以保留尽可能多的数据信息。
我们将我们的方法产生的分子表示与其他方法获得的分子表示进行了比较,包括监督模型(CMPNN26)、代表性预测方法(GROVER8)和具有通用增强策略的对比方法()。
对齐性分析
我们通过用t-SNE对不同形态的分子进行可视化表示,来检测相同形态的分子是否有相似的表示。分子形态指分子的核心结构,它是化学的基础内容并且为分子核心和构建块的系统研究提供了基础。不同形态的分子通常具有非常不同的化学性质。我们为每个数据集(Tox21,QM7和BBBP)选择7种最常见的形态并用不同颜色区分形态。如图8所示。
没有经过预训练的模型不能区分使用这些支架的分子,预测和对比方法只有轻微的改进。相比之下,KANO产生了更独特的集群与最低的Davies-Bouldin(DB)指数
均匀值分析
为了检验学习到的分子表征的均匀值,我们首先使用t-SNE27将它们映射到单位超球面,然后利用KDE来可视化表示的密度分布。
功能提示支持可解释的预测
我们比较了利用功能提示和没有利用功能提示的KANO的性能。结果显示用了功能提示的模型性能比没有使用的模型提高了8.41%。除此之外,添加或者连接官能团特征被证实为更好的选择,强调了官能团的效果。
由于官能团作为预训练对比任务和下游分子预测任务之间的桥梁,因此我们对于它们产生领域特定可解释性的潜力很感兴趣。我们将4个属性种类的分子图中官能团的注意力权重进行可视化。
如图11所示可以看出:
(1)第一个例子是Tox21公开数据集,主要用来测量混合物的毒性。我们观察到pyridyl和azo的注意力权重更高,随后是primary amine。有趣的是,pyridyl和primary amine官能团结合了能够形成2,6-diaminopyridine,这是继发性肝毒素和皮肤增敏剂的主要成分。含官能团azo的化合物,比如azo dyes,表现出致癌和诱变的特性,使其非常重要。
(2)第二个例子是来自BACE数据集 human β-secretase 1抑制剂。该分子更加关注amidine, carboxamide和secondary ketimine,这些官能团形成imidazole成分。除此之外,pyridyl和phenyl也获得了更多关注。这些发现和以前的研究结果一致,imidazole抑制human β-secretase 1
(3)第三个样本来自FreeSolv,重点研究了水中小分子的水化自由能。Fluoro和较强的获取电子的能力和hyfroxyl的亲水性,影响了分子与水的相互作用力,因此受到较多的关注。此外,极性强的carboxyl得到更多的关注。
(4)最后一个分子来自QM7,记录分子的原子化能。Alkenyl和carboxamide由于碳-碳双键的键能较高和amide的稳定性而受到更多的关注,需要更多的能量将它们分解成单独的原子。
可解释性探索说明了功能提示如何通过调用从分子性质预测任务的角度了解相关的官能团知识来弥合训练前任务和下游任务之间的差距。
方法
ElementKG的构造和表示
我们通过整合元素周期表和维基百科页面的知识,提供了一个元素类结构层次、化学属性和官能团的全面视角,以及它们之间的关系,如图2所示。
首先,我们从元素和官能团的收集知识中提取了类层次结构,它是ElementKG的支柱结构。正如图2上面部分所示,蓝色块代表不同类,蓝色箭头表示包含子类(subClassOf)或者不相交关系(disjointwith)。比如说,类ReactiveNonmetals和类Nonmetals之间建立的 rdfs:subClassOf关系意味着ReactiveNonmetals的实体集是Nonmetals的子集。此外,类Ester中的每个实体也是它的父类中的成员。值得注意的是,子类关系是可传递的,这意味着ReactiveNonmetals类也是Element类的一个子类。然而,由于字面名称不足以去区分不同的类别,因此我们定义了类的不相交关系owl:disjointWith,比如说,类Metals和类Nonmetals之间的owl:disjointWith关系表示一个类Metals的实体不可能同时是类Nonmetals的实体。使用类结构层次,我们通过 rdf:type为每个类分配了相应的实体,红色块中的C和O元素都是反应性非金属类的成员。
第二,我们编制了一个源于元素周期表的化学属性的列表,并将他们作为数据属性分配给ElementKG的每一个实体(虚线框)。超过15个数据属性,包括hasName, hasAtomic, hasDensity和hasIonization,都和每个元素都有关。另一方面,对于官能团,我们记录了它们所包含的键,比如说, CarboxylhasBondType包含单键和双键,而 Phenyl包含单键和芳香键。
第三,我们使用客观属性(红色箭头)来建模ElementKG的实体之间的关系。为了实现这个,我们使元素的连续的化学属性值离散,并使用它们作为客观属性(比如说,inRadiusGroup1和inWeightGroup2)将元素实体相互连接。比如说,三元组(C, inRadiusGroup1, O)表示实体C和实体O都在inRadiusGroup1,而(C, hasStateGas, O)表示它们都处于气态。我们为这些客观属性添加对称性,意味着(O, hasStateGas, C)和(C, hasStateGas, O)同时存在。由于ElementKG主要是面向元素的,因此,我们没有为官能团直接添加客观属性。相反,通过isPartOf 这个客观属性,我们建立了官能团和元素实体之间的连接,这说明了该元素参与了官能团的形成。
为了充分地发掘结构信息和语义信息并获得ElementKG所有实体、关系和其他组成部分的有意义的表示,我们用一种OWL2Vec的知识图谱embedding方法。如图12所示。
该embedding方法分为两步:
(1)从ElementKG中提取出一个预料库,包括一个结构文档(structure document),词汇文档(lexical document)和组成文档(combined document);
(2)在语料库上训练一个模型,去获取高质量的知识图谱嵌入向量。
结构文档通过计算每个目标实体的随机游走并将遍历的关系和实体连接成句子来获取图的结构和逻辑构造函数。比如说,一个深度为3的随机游走从C元素开始能够产生句子 (C, inRadiusGroup1, O, rdf:type,ReactiveNonmetals)。词汇文档包含从结构文档中解析出来的句子。举例说,上述句子能够被解析为s (‘C’, ‘in’, ‘radius’, ‘group1’, ‘O’, ‘type’, ‘reactive’, ‘nonmetals’)。为了建立实体和它们文字名称之间的对应关系,我们将词汇文档中的每个单词替换为结构文档中的对应实体,生成一个连接文档。也就是说,上述例子能偶被转变为一组句子:(C, ‘in’, ‘radius’, ‘group1’, ‘O’, ‘type’, ‘reactive’, ‘nonmetals’), (‘C’, inRadiusGroup1, ‘O’, ‘type’, ‘reactive’, ‘nonmetals’)等等。这三个文档被合并成一个文档,然后用skip-gram结构训练一个word2vec模型。最终,我们获取了 ElementKG中每个实体和关系的嵌入向量,即我们用于增强分子图的输入特征初始化和功能提示的生成。
对比学习框架
我们使用一个对比学习框架来学习分子图的表示。给定一个大小为N的数据集,我们产生了2N个图通过将N个原始图转化为N个增强图。原始分子图和它的增强图组成了一个正对,而和形成负对。
通过图编码器f(⋅)获取到图的表示以后,一个称为投影网络的非线性转化器g(⋅)将原始图和增强图表示映射到一个潜在空间,在那里计算对比损失,如在simCLR中提出的。我们使用两层感知机来进行投影。然后,我们使用NT-Xent损失函数去训练图编码器去最大化正对之间的一致性和负对之间的差异。
令表示和之间的余弦相似度。一个正对的损失函数定义如公式1。
其中,是一个指示函数,如果k不等于i,则函数结果为1,是一个温度参数,是一个隐层表示。
对比损失函数中的分子度量了正对之间的一致性,而分母计算了每个图和其他2N-个图的一致性总和。这意味着原始图的隐层表示应该不仅关注与其他原始图的隐层向量还要关注与所有增强图的相似性。增强图的隐层表示同样也遵循相同的计算过程。最终,通过该小数据集的所有正对计算出损失。
提示生成器
为了促进预训练模型回忆起之前学过的相关知识,我们设计了一个提示生成器来产生一个基于ElementKG和输入的分子图的提示,也就是。我们使用开源包RDKit检测G中所有的官能团并在它们名字的基础上检索ElementKG中对应的官能团实体。然后我们获得了官能团实体的嵌入向量,其中m是检测到的官能团数量。为了获取官能团的重要性,我们创建了一个可学习向量作为中介(记为),然后在媒介和官能团的嵌入向量上使用自注意力机制。特别的,输入首先投影到查询、键、值向量中:
其中且是隐藏层的维度。自注意力机制计算了查询和键之间的注意力权重,然后乘以值。输出的嵌入向量的形式为
我们实现了两层=个自注意力层并获得了中介的嵌入向量,它反映了具有不同作用的官能团的综合贡献。然后我们将向量喂给一个全连接层,紧接着进行归一化,去获得功能提示:
最终,我们用一个可学习的比例参数给中每个原子节点的原始表示添加提示,得到中节点的新输入特征,表示为。然后把提示增强的分子图输入到预训练图编码器中,然后输入到对下游分子属性的预测网络中。
图编码器体系结构
一个分子图可以表示为,其中表示一个节点集而表示边集。每条边都是双向的,令表示节点的初始特征,表示边的初始特征。特别地,对于原始分子图中的原子和键,我们根据特定的化学规则提取他们那你不同的初始特征。
以图13为例,对于增强图,我们将上面获得的元素实体的嵌入向量作为元素节点的初始特征。每两个元素节点之间的边的初始特征通过平均汇集ElementKG中对应元素节点之间的多个关系的嵌入向量来获得。根据原始分子图中相同的特征提取方法,我们获得了原子和键的初始特征。元素之间的边和它们对应的原子通过不同的随机初始向量来区分,也就是说,相同颜色的虚线边代表相同的初始特征,而不同颜色的表示不同的表示。
给定一个图结构,家电特征和边特征,我们的目标是学习一个图编码器,用于映射输入图到一个向量表示。在我们看来,我们用CMPMNN作为图编码器,通过加强边和节点之间的信息提取来提高嵌入向量的质量。
首先,为了更新节点的隐藏状态,每个节点聚合它们进入边的表示,而不是中的邻居节点。公式表示为
其中k表示信息传递的当前深度,pooling操作符是一个最大池化操作 ,是一个元素级乘法运算符。这里我们用最大池化来突出显示最大信息强度的边,因为一个节点的隐藏状态主要来自于输入边的最强信息。然后,节点当前隐藏状态与消息向量连接起来,然后输入一个通信函数来更新节点的隐藏状态:
其中隐藏状态充当接受输入消息的消息转换站,整合它们并将它们传送到下一站。具体的的通信函数的实现方法是将节点和边缘特征一起输入到一个MLP中,然后利用ReLU作为激活函数。
第二,我们通过从中减去逆边的信心来提取边的信息:
其中是的逆边。为了更新边的隐藏状态,我们首先将边的中间消息输入到一个全连接层中并将其加上初始边特征。我们将输出应用一个ReLU激活函数,并将其作为下一次迭代的中间消息向量,公式为:
第三,k轮迭代之后,再进行一轮迭代:
然后最终图的节点表示通过聚合输入边的信息、当前节点表示和初始节点特征来获得:
最终,用一个读出操作来获取整个图的表示:
其中GRU参考ref.44(我也不知道啥意思)
实验设置
预训练和下游数据集。在预训练阶段,我们用来自ZINIC15的250000个未标记的分子样本来预训练KANO,ZINIC15是一个包含可购买的类药物化合物的公共访问数据库。在微调阶段,我们用了来自MoleculeNet的14个基准数据库,包含678个二分类任务和19个回归任务。数据集覆盖了广泛领域的分子数据,包括药物、生物学、物理学和化学。除了QM9外,我们对于所有的数据集进行了三次随机种子Scaffold划分的独立实验,数据集、验证集和测试集的比例为8:1:1. Scaffold划分是一种更具有挑战性的划分方法,根据它们的Scaffold(分子子结构)来划分分子,能够更好地评价模型的泛化能力。对于QM9数据集,我们遵循大部分相关工作所用的随即划分数据集来进行比较。