DRUGAI
今天给大家介绍的是来自湖南大学DrugAI团队与宇耀生物合作发表在国际生物信息学期刊《Briefings in Bioinformatics》上的工作,题目为“Attribute-guided prototype network for few-shot molecular property prediction”。该研究主要聚焦于少样本分子性质预测(Few-Shot Molecular Property Prediction, FS-MPP)的问题,并提出了一种名为属性引导的原型网络(Attribute-Guided Prototype Network, APN)来解决这一挑战。所提出的 APN支持大量的来自分子指纹与自监督学习方法的属性,具有良好的可拓展性与有效性。
分子性质预测(MPP)在药物发现过程中起着至关重要的作用,为分子评价和筛选提供了有价值的见解。尽管深度学习在这一领域取得了许多进展,但其成功往往取决于大量标记数据的可用性。少样本MPP是一个更具挑战性的场景,其目的是在只有少数可用分子的情况下识别未见过的属性。本文提出了一种属性引导的原型网络 (attribute-guided prototype network, APN) 来解决这一问题。APN首先引入了一种分子属性提取器,该提取器通过考虑7个基于圆的指纹、5个基于路径的指纹和2个基于子结构的指纹,不仅可以提取3种不同类型的指纹属性(单指纹属性、双指纹属性和三重指纹属性);还可以自动从自监督学习方法中提取深度属性。此外,APN设计了属性导向的双通道注意模块,学习分子图与属性之间的关系,并细化分子的局部和全局表示。与现有工作相比,APN利用高层次的自定义属性,帮助模型显式地泛化分子图中的知识。在基准数据集上的实验表明,APN在大多数情况下都可以达到最佳性能,并且验证了这些属性对于提高少射MPP性能是有效的。此外,通过对不同领域数据的实验,验证了APN具有较强的泛化能力。
背景介绍
在药物发现过程中,分子属性预测(MPP)扮演着至关重要的角色。MPP通过计算方法预测分子的物理化学性质、生物活性和毒性等关键信息,为药物开发提供了科学依据,并显著提高了虚拟筛选和药物优化的效率。然而,传统的深度学习模型在MPP领域的应用面临着重大挑战,主要是因为深度学习方法高度依赖于大量高质量的标记数据。在药物研发领域,获取和标记这些数据往往需要经过复杂且昂贵的生物实验,这使得大量标记数据的生成变得不现实和成本高昂。
为了克服这一限制,少样本学习(Few-shot Learning, FSL)作为一种有效的解决方案被引入到MPP领域。FSL旨在通过利用少量标记样本来快速适应新任务,从而减少对大量数据的依赖。在MPP背景下,FSL能够帮助模型在只有少量可用分子的情况下,对新分子属性进行准确预测。然而,当前的FSL方法在处理MPP问题时,主要集中于从分子图中提取结构信息,忽视了高级概念在少样本分类中的重要性。高级概念(如分子属性)往往能够提供更丰富的语义信息,有助于模型更好地理解和泛化到新任务。因此,如何有效地利用这些高级概念来指导模型学习,成为提高FS-MPP性能的关键。
本文介绍了一种新的FS-MPP属性导向原型网络(APN)。如图1所示,APN的关键思想是利用人类定义的分子属性作为高级概念来指导基于图的分子编码器,以克服实验室分子的稀缺性和不同MPP任务之间泛化不足的问题。具体来说,作者利用了一个属性提取器,它从14种类型的分子指纹(包括基于圆的、基于路径的和基于子结构的)中提取分子指纹属性,并从自监督学习方法中提取深度属性。然后,作者提出了一个属性引导的双通道注意模块(AGDA)来学习分子图中相应的高级概念。在AGDA中,分子属性通过局部和全局注意力来细化原子级和分子级表示,允许APN关注与目标属性相关的关键局部和全局信息。值得注意的是,所提出的APN框架是通用的,可以无缝集成到任何现有的基于图的分子编码器中,从而提高了其在低数据场景下的性能。在多个公开数据集上的实验结果表明,APN在FS-MPP中的有效性。此外,作者还广泛研究了不同分子指纹属性和深度属性以及不同属性组合对FS-MPP的影响。
图 1
模型方法
图 2
APN的整体概述如图2所示,主要分为三个部分:
1.如图2(a)所示,主要包括属性提取器和AGDA模块。
2.如图2(b)显示了分子属性提取器的流水线。
3.如图2(c)所示。AGDA由属性引导的局部注意力模块和属性引导的全局注意力模块组成,分别引导模型关注重要的局部信息和全局细节。
接下来,将介绍所提出方法的细节。
如图2(a)所示,首先,使用分子编码器(如GAT)从分子中提取表征。然后,作者通过考虑分子属性来改进这些分子表征。具体来说,由属性提取器生成的分子属性通过双通道注意机制对分子表征进行细化,使其更具信息性和甄别性。最后,考虑到支持集中的每个分子表示对原型的贡献不同,作者以加权的方式分别计算了正样例和负样例的原型。
如图2(b)所示,作者发现分子中的属性在FSL中并没有被充分利用,分子指纹和自监督学习方法可以提供高层次的知识,包括化学结构、物理化学性质和人类定义的特征。因此,作者提出了从14种类型的分子指纹(包括基于圆的、基于路径的、基于子结构的和基于物理化学的指纹)中提取分子属性,以及7种最先进的自监督学习方法。
如图2(c)所示,在这里,作者结合分子属性并设计了一个AGDA模块,以学习更多信息和判别的分子表示。首先,通过GAT得到分子的所有节点表示,用表示,其中表示节点表示的长度,N表示节点数。属性导向局部关注模块的输入为,其中a为分子的属性,为属性的长度,[;]表示拼接。然后,作者使用一个带sigmoid函数的全连接层来计算局部注意力,
式中,σ为sigmoid激活函数,为全连接层。为了获得由局部注意力精炼的节点表示,作者将与节点表示相乘,表示为
其中为局部注意力模块的输出,⊗表示逐元素乘法。
对于属性引导的全局注意力模块,作者首先通过对所有节点表示进行平均得到分子的表示,。该模块的输入为,作者还使用了一个全连接层和sigmoid函数来获得全局注意力,其公式如下:
最后,作者将与相乘,得到最终的精细化分子表示,形式化如下:
其中由分子属性提炼出来的最终分子表示形式。
实验结果
数据集:作者从来自MoleculeNet的三个广泛使用的少样本MPP数据集上验证了他们的方法。三个数据集分别为Tox21、SIDER和MUV,其中包括任务数量、元训练和元测试任务的划分以及分子数量。
分子图的详细信息:为了从分子中提取特征,作者使用RDKit从原始SMILES序列中构建分子图。在这些图中,作者提取了必要的原子特征,包括原子序数和手性标签,以及键类型和键方向等键特征。最后,作者采用五层图注意网络(GAT)对分子图中包含的信息进行编码,并推导出分子和节点嵌入。
实现细节:主要使用PyTorch实现APN框架,并使用学习率在0.0005到0.05之间的Adam优化器进行梯度下降优化。在训练过程中,以2-way 10-shot的方式生成2000 个 episodes。交叉熵损失被用作分类任务的损失函数,在模型训练期间采用耐心水平为100的早期停止策略。在测试阶段,从测试任务中随机抽取一批大小为10或20的支持集和一批大小为32的查询集。对于每个测试任务,基于不同的随机种子进行20次独立运行,以减轻随机性,并计算性能的平均值作为最终性能。
评估协议:作者在元测试任务查询集上计算 ROC-AUC、F1-Score和 PR-AUC 来综合评价模型和比较方法的性能。
主要结果
作者将APN与相同实验设置下的多个基线模型进行比较,包括Siamese、注意力LSTM (attnLSTM)、IterRefLSTM和Meta-GAT。如表1、2和3所示,在大多数情况下,APN始终优于所有其他模型,ROC-AUC平均提高1.69%,F1-Score 提高1.65%,PR-AUC平均提高1.89%,证明了其有效性。
表 1. Tox21 数据集上所有比较方法的 ROC-AUC 分数和标准差。最佳结果以粗体突出显示
表 2. SIDER 数据集上所有比较方法的 ROC-AUC 分数和标准差。最佳结果以粗体突出显示
表 3 MUV 数据集上所有比较方法的ROC-AUC分数和标准差。最佳结果以粗体突出显示
单个指纹属性
不同单指纹属性的APN在Tox21、SIDER和MUV数据集上的实验结果如图3、4和5所示。图3、4和5表明,使用单指纹属性比不使用属性(表示为“none”)的结果有显著的性能提升。最大提升幅度分别为3.55%、2.32%和2.77%。值得注意的是,作者观察到基于路径的指纹属性,如rdk5、rdk6和hashap,对性能有显著贡献改进。
图 3 Tox21 数据集的 10-shot任务中,配备了 14 个单指纹属性的 APN 的 ROC-AUC 分数。'none' 是未使用属性时 APN 的结果
图 4 来自 SIDER 的 10-shot 任务中,配备了 14 个单指纹属性的 APN 的 ROC-AUC 分数。'none' 是未使用属性时 APN 的结果
图 5 来自 MUV 的 10-shot 任务中,配备了 14 个单指纹属性的 APN 的 ROC-AUC 分数。'none' 是未使用属性时 APN 的结果
双指纹属性
作者通过加法或拼接的方式将 14 个单指纹属性成对组合得到双指纹属性并在 Tox21 数据集中的 10-shot任务上进行实验。为了研究双指纹属性与单个指纹属性之间的关系,作者将 14 个单个指纹属性成对组合以获得双指纹属性并定义三种类型的关系。具体来说,如果两个属性之间的关系为R1(AUCFP1+FP2> AUCFP1 and AUCFP1+FP2>AUCFP2),则热图中对应的值为绿色; R2(AUCFP1+FP2> AUCFP1或者AUCFP1+FP2>AUCFP2)和R3(AUCFP1+FP2< AUCFP1 and AUCFP1+FP2<AUCFP2)分别为黄色和灰色。热力图如图6所示
图 6 两个单指纹属性之间关系的热力图。左边是两个单指纹属性相加得到的双指纹属性APN的结果,右边是两个单指纹属性拼接得到的双指纹属性APN的结果。
在 ROC-AUC 分数上取得前10名的双指纹属性的结果如表 4 所示。可以观察到,双指纹属性并没有进一步提高峰值 ROC-AUC 分数。但与单指纹属性相比,双指纹属性更加稳定,前10名的ROC-AUC得分均超过0.835。
表 4 Tox21 中具有双指纹属性的 APN 在 10-shot 任务上取得前 10 名的ROC-AUC 结果
三指纹属性
考虑到三个不同单一属性的组合空间太大,这里只考虑关系为 R1 的双指纹属性。然后,作者利用这些选定的双指纹属性,通过相加的方式与单个指纹属性进一步组合,得到三指纹属性。作者对来自Tox21数据集的10-shot任务进行了实验,并在表7中显示了性能最高的前20个三指纹属性。
表 5 Tox21 的 10-shot 任务中,在三指纹属性的APN上实现前 20 名的ROC-AUC 结果
深度属性
作者研究了具有7个深度属性的APN的性能,即通过自监督学习方法直接从序列、图和图像中获得的分子属性。在Tox21、SIDER和MUV数据集上的实验结果如表6所示,可以看出深度属性在Tox21数据集上的性能与指纹属性相当,甚至优于指纹属性。
表 6 使用深度属性的 APN 在 Tox21、SIDER 和 MUV 的 10-shot 任务上的 ROC-AUC 分数
消融研究
APN模块的有效性。为了证明APN模块的有效性,作者实现了四种不同的APN模块,包括:(i) w/o L: 没有应用属性引导的局部注意力模块; (ii) w/o G: 没有应用属性引导的全局注意力模块; (iii) w/o S: 没有应用点积相似度,即使用L2距离; (v) w/o w: 没有在计算原型时应用加权和。在Tox21 10-shot任务的实验结果如图6所示。
图 7
APN获得更好的性能这表明APN中的组件可以有效地协作以提高性能。从这些实验结果中有几个发现。首先,w/o G在所有情况下的表现都是最差的,这说明了属性引导的全局注意力模块具有捕捉与 few-shot MPP 任务相关信息的关键能力。第二,在APN中,属性引导的局部注意模块比没有属性引导的局部注意模块显著提高了性能(w/o L),证明了其有效性。但是,属性引导的局部注意力模块的性能增益略差于属性引导的全局注意力模块,说明分子属性信息更适合用于引导全局信息。第三,APN优于w/o S和w/o w,证明了将点积相似度和加权原型结合到APN中的好处。
不同的查询集大小。为了验证查询集大小是否对 APN 的性能产生影响,作者使用不同查询集大小(16、32、64、128)进行消融研究进行比较。在Tox21、SIDER和MUV上的实验结果如图8所示。可以发现,在不同查询大小下,APN的性能在大多数情况下都是鲁棒的。
图 8 不同查询集大小的消融实验
使用其他的图编码器
在这里,作者考虑另外三种基于图的分子编码器:GCN、GIN 和 GraphSAGE,它们要么从头开始学习,要么经过预训练。图 9 显示了 Tox21 上的 ROC-AUC 分数。可以看出,GAT 在从头学习的模型中表现最好。APN 始终优于 w/o A(没有属性和 AGDA 的 APN),表明 APN 的分子属性和 AGDA 模块的有效性。作者进一步注意到,使用预训练的编码器可以提高除 GAT 之外的其他模型的性能。
图9 使用不同的基于图的分子编码器在 Tox21 的 10-shot 任务上的ROC-AUC 得分。
泛化能力验证
为了验证 APN 的泛化能力,作者选取了 TDC 平台中的所有分类任务构建了 TDC 数据集。TDC 平台中的三个吸收数据集、一个分布数据集和三个代谢数据集用于元训练,三个毒性数据集用于元测试。TDC 数据集中的训练和测试数据属于不同的领域,可以测试 APN 在这些领域中的泛化能力。Meta-GAT(最佳比较方法)和 APN 在 5-shot 和 10-shot 任务上的表现如表 7 所示。实验结果表明,APN 在未知领域保持稳健,并且在 5-shot 和 10-shot 任务中均优于 Meta-GAT,AUC 平均提高了 6.98%,F1-Score 提高了 2.97%,PR-AUC 提高了 5.34%。
表 7 在 TDC 数据集上的 ROC-AUC 分数和标准差。最佳结果以粗体突出显示
结论
在这项工作中,作者提出了一种新的属性引导框架,称为APN,以解决FS-MPP的挑战。APN提取分子属性,设计AGDA模块学习图与属性之间的关系。不同于一般的FS-MPP方法仅依赖于分子的结构信息,作者利用了14种类型的分子指纹和7种类型的深度指纹来获取分子属性。它们封装了专家定义的高级分子知识和自监督学习方法,以指导深度神经网络学习分子。在基准数据集上的实验验证了APN。此外,作者发现基于路径的指纹表现最好,如rdk5、rdk6、hashap和hashtt;在基于圆形的指纹中,ecfp4、ecfp6、fcfp4和fcfp6表现相对较好;在基于子结构的指纹类别中,macc的表现往往优于avalon,但它可能有更大的差异。
参考资料
Linlin Hou, Hongxin Xiang, Xiangxiang Zeng, Dongsheng Cao, Li Zeng, Bosheng Song, Attribute-guided prototype network for few-shot molecular property prediction, Briefings in Bioinformatics, Volume 25, Issue 5, September 2024, bbae394,
https://doi.org/10.1093/bib/bbae394
代码
https://github.com/hou29/few-shot-MPP