Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

学术   2024-10-23 00:01   韩国  

DRUGAI

今天给大家介绍浙江大学智能创新药物研究院侯廷军教授团队,浙江大学药学院谢昌谕教授团队,中南大学曹东升教授团队和碳硅智慧合作在Nature Machine Intelligence发表的一篇文章:“Leveraging Language Model for Advanced Multi-Property Molecular Optimization via Prompt Engineering”。该文提出了一种利用提示学习来进行多性质分子优化的方法——Prompt-MolOpt。该算法利用提示学习的训练策略,实现了零样本学习和少样本学习在多性质优化中的应用,使模型能够在单性质数据训练的情况下也能有效处理多性质的优化任务。此外,通过将输入数据从传统的canonical SMILES字符串转变为一个更加细致且目标性强的格式(包括待优化性质标签、药效团分隔符、药效团、待优化基团分隔符和待优化基团五个部分),该算法能够在性质优化的同时保留药效团的完整性。实验结果表明,Prompt-MolOpt在DRD2和QED的多性质优化中优于现有的方法,并能够复现真实的ADMET优化案例。该方法有望提高分子优化的成功率,并确保优化过程中药效团的完整性,为分子设计和药物开发领域提供一种高效、精准且可靠的优化工具。

研究背景

在材料和分子设计领域,多目标优化一直是一个重要的研究方向。尽管有一些利用 AI 进行分子优化的初步尝试,但由于每个分子优化问题的复杂性,尚未出现一种可广泛应用的系统化方法。本研究的重点是提出一种通用且灵活的框架,以应对深度学习驱动的多目标和约束的分子优化,尤其是在少样本和零样本的条件下,灵感来自最近发展的语言模型提示工程。以药物设计作为本研究的具体示例,药物设计的一个关键阶段是优化分子的物理化学特性,同时保持其生物活性,这项挑战性的任务通常由经验丰富的药物化学家手动进行。凭借他们的专业知识和经验,这些化学家知道如何修改结构以获得具有更好药物特性的分子。在此基础上,计算化学家模仿药物化学家的思维过程,设计结构优化策略。通过分析现有的标注数据,他们提取出在药物设计中常用的子结构转化规则,其中一种子结构向另一种的转化可以改善某些性质。这一类方法包括生物等排体转换、骨架跃迁和匹配分子对分析(MMPA)等。近年来,深度生成模型在化学空间探索中受到越来越多的关注,它们可以在满足预定约束条件的特定区域内进行高效的搜索,为分子优化提供定制且数据驱动的建议,并用于构建复杂的分子优化方法。各种模型(如使用强化学习、基于流的转化和变分自编码器等)可以快速生成具有期望特性的全新分子。然而,从计算的角度来看,许多AI生成模型在一个非常重要的方面与体外分子优化过程不一致:保持分子主要骨架(药效团)的必要性。为了解决这个问题,像Modof模型这样更为定制的AI解决方案被提出,这些模型可以选择性地修改分子部分子结构,以保留核心结构并优化某些ADMET性质。这种高度受限的分子优化(非从头生成)方法为药物设计的人机协作提供了可能性。


在药物的关键属性之间(如药效、安全性和药代动力学)取得平衡是一个多目标优化问题。尽管分子优化取得了一些进展,但目前的方法主要是为单一目标优化设计的。传统的基于规则的方法,如MMPA,由于其简单的原则,很难通过单一子结构转换来同时优化多种分子特性。基于AI的方法虽然在多目标优化方面有潜力,但也面临着显著挑战。其中一个最关键的问题是如何构建合适的目标或损失函数,以捕捉使药物分子达到“最佳”的属性。通常对多性质优化的处理方式是对各个性质进行简单求和,这可能会引入偏差并简化多性质优化的细微差别,导致无法有效平衡相互冲突的目标以正确地优化分子。另一个同样紧迫的问题是数据的稀缺性。在药物开发领域,带有多重性质注释的数据点的可用性极为不足,甚至完全不存在。缺乏全面标注的数据集严重阻碍了训练过程,导致模型难以进行有效的多性质优化。此外,目前的方法需要为不同性质建立单独的优化模型,这限制了通过一个统一模型灵活优化各种特性的可能性。性质组合的多样性会极大地增加为应对各种性质组合所需的模型和数据量。因此,开发一个能够通过简单提示优化一系列性质的统一模型,并且可以针对这些性质的特定组合进行优化,将是多性质优化的重大进步,这是现有方法目前未能实现的目标。


近年来,像GPT-3这样的大型语言模型(LLMs)在计算领域中崭露头角,并在跨学科领域中获得了广泛应用。这些LLM的一个显著特征是它们对提示学习的熟练运用,使得它们具有优异的零样本和少样本学习能力,并在各种任务中表现出独特的多样性。在分子优化中,基于提示学习的技术应用使得模型能够有效地解决复杂的优化目标,克服了传统多目标优化的难题。这种灵活的方法有助于描述复杂的目标函数,从而绕过了需要显式构建多目标函数的长期瓶颈。在药物发现这一常常受数据稀缺限制的领域,这种灵活性尤为重要。通过使用具有特定性质的标记嵌入的提示,我们可以充分利用现有数据,实现零样本和少样本学习能力,从而缓解由数据稀缺带来的问题。


在本研究中,我们提出了一种基于Transformer架构和提示学习的分子优化方法Prompt-MolOpt。我们首先使用多图注意力神经网络(MGA)构建了一个多任务属性预测模型,能够生成特定属性的原子节点嵌入;在分子结构优化过程中,通过引入提示来引导优化朝向指定的属性,方法是将特定属性嵌入添加到原子标记中。计算结果显示,该方法在多属性优化方面显著优于现有方法。此外,Prompt-MolOpt展示了零样本和少样本学习的潜力,非常符合分子优化的实际应用场景。鉴于在实际分子优化中常需保留药效团的要求,我们还提出了一个模型变体(Prompt-MolOptP),可以在保留所需药效团的同时进行针对性优化。实际的优化案例证明了模型的有效性,显示出其在分子结构优化中的巨大潜力,并为多目标结构优化提供了一个有前途的方向。


材料与方法

Prompt-MolOpt

图1展示了Prompt-MolOpt的逐步构建过程。在数据足够构建相应性质预测模型的情况下,可以为该性质生成相应的Prompt-MolOpt优化模型。首先,利用分子数据集构建基于图神经网络的性质预测模型(图 1b)。接下来,利用我们之前提出的SME可解释方法,对Drugbank中的分子进行分解,得到不同的分子子结构,并为其赋予对性质影响的归因值(图1c),进而构建具有归因值的Drugbank子结构数据集。随后,通过替换分子性质数据集中不利于目标性质的子结构,使用DrugBank中具有较高归因值的有利子结构,来创建优化的分子对。这些优化对通过分子特性预测模型进行评估和验证,以确保优化过程可能取得成功,即优化前后的预测特性有显著变化。图1d概述了分子优化数据集的构建过程,使我们能够为该性质创建定制化优化数据集。在Prompt-MolOpt模型的构建过程中,我们集成了MGA、基于seq2seq的 Transformer和提示学习。具体来说,通过利用训练数据集中的分子构建的 MGA为优化数据集中的分子生成与性质相关的原子标记嵌入(图1e)。这些嵌入作为提示嵌入在Transformer框架中使用,使我们能够基于分子优化数据集建立Prompt-MolOpt模型。正如图1e所示,我们可以灵活地修改提示标记,并根据要优化的性质引入性质相关的嵌入。这种灵活性也延伸到推理过程中,使我们能够通过改变提示标记来为同一分子优化不同的性质。

图1. Prompt-MolOpt构建流程。


Prompt-MolOptP

鉴于实际分子优化的重要性,尤其是在保留药效团等特定分子结构的同时修改其他部分的需求,我们提出了Prompt-MolOpt的变体:Prompt-MolOptP,该变体在优化过程中可以保留指定的分子结构。图2a中展示了Prompt-MolOptP将分子分为药效团和需优化部分,确保修改仅限于后者。在实际应用中(图1b),我们可以指定要保留的结构,然后使用不同的提示标记来优化剩余的分子子结构,以得到具有期望特性的优化分子。

图2. Prompt-MolOpt框架图;(A)Prompt-MoltOptP的结构;(B)Prompt-MoltOptP优化示意图。


研究结果与讨论

Prompt-MolOpt在多性质优化中的表现

为了验证Prompt-MolOpt在多属性优化中的有效性,我们与三种性能优异的分子优化模型 JTNN、hierG2G和Modof进行了比较分析。多性质优化实验的目标是提高分子对多巴胺D2 受体(DRD2)的结合亲和力和定量药物相似性(QED)的评分。结果表明,Prompt-MolOpt在所有相似性约束下始终保持最优的表现,在𝛿=0.4时优化成功率为29%,𝛿=0.5时为25.12%,𝛿=0.6时为17.87%。与Modof等需要从特定源-目标分子对中学习双性质优化策略的模型不同,Prompt-MolOpt采用了更灵活的方法,它不仅能够处理针对双性质优化的分子对,还通过利用提示学习从单性质优化的分子对中学习,扩展了其优化能力。


在推理阶段,我们通过简单地使用多个提示标记(对应于不同的分子性质)引导模型对分子片段进行适当修改以实现多性质优化。即使在单性质数据上训练,Prompt-MolOpt仍展示了同时优化DRD2和QED性质的出色能力(零样本场景)。在仅使用单性质数据进行训练,但在测试阶段使用多性质提示标记时,Prompt-MolOpt(zero-shot)在𝛿=0.5和𝛿=0.6时依然优于现有模型,显示了其在实际应用中的巨大适应性和潜力。类似于Modof的多轮迭代优化策略(Modofm),我们也测试了 Prompt-MolOpt 的迭代版本(Prompt-MolOptm)。结果显示,Prompt-MolOptm在𝛿=0.4时的成功率为66.75%,𝛿=0.5时为47.25%,𝛿=0.6 时为 27.12%,均优于Modof。即使在没有多性质数据的情况下进行训练,Prompt-MolOptm(zero-shot)在不同相似性约束下仍表现出色,进一步证明了其适应性和鲁棒性,显示出在实际应用中的巨大潜力。


表1. 不同模型在DRD2和 QED双性质优化上的表现。


Prompt-MolOptP成功复现多性质优化案例

Prompt-MolOptP在分子的多性质和多位点优化方面展示了灵活性,这在血脑屏障通透性(BBBP)和脂溶性(lipop)的优化中得到了验证。例如,化合物 2(JNJ-42153605)是Janssen Pharmaceuticals为治疗焦虑和精神疾病开发的潜在治疗药物。该化合物最初是从先导化合物(化合物1)中衍生出来的,其通过对氰基和三氟甲基取代进行了优化。仅使用“BBBP”提示标记,Prompt-MolOptP就能够在第2个优化分子中再现这一化合物(图3c)。将脂溶性提示标记(“BBBP lipop”)添加到提示中,可在第5个分子中成功再现(图1d)。如图3所示,使用“BBBP”标记生成的分子包含羟基、氨基和磺酸等亲水基团,但这些基团在使用“BBBP lipop”标记生成的前10个分子中不存在。图1b显示了包含“lipop”标记的情况下,分子的脂溶性增加,具体体现在 SlogP 值的分布上。尽管我们的训练集不包含同时优化BBBP和脂溶性的数据,但模型依然表现出良好的泛化能力。这表明 Prompt-MolOptP在执行复杂的多性质和多位点优化方面具有一定潜力。

图3. BBBP和脂溶性优化案例。


此外,该文章还展示了一些hERG优化、BBBP优化案例,探究了Prompt-MolOpt中提示嵌入对模型的影响,Prompt-MolOpt在零样本和少样本学习中的应用等。更详细的内容可以阅读原文章。


总结

本研究中,通过利用Transformer架构与提示学习的结合,我们提出了一种用于多性质分子优化的新方法Prompt-MolOpt。该方法允许精确指定需要保留的分子结构,同时灵活优化其余部分,从而生成符合目标性质的分子。通过药效团注释和待优化性质提示,Prompt-MolOpt促进了AI与领域专家之间的互动合作。这种协作使专家能够引导优化过程,无论是通过药效团注释保留关键结构元素,还是通过特定提示灵活选择待优化的性质。与JTNN、hierG2G和Modof等优异模型相比,Prompt-MolOpt在多性质优化方面表现出色。Prompt-MolOpt的一个显著优势是其零样本学习的能力,即使在没有直接的多性质训练的情况下也能表现良好。其对血脑屏障通透性(BBBP)优化和减轻 hERG 心脏毒性等分子优化案例的成功复现,凸显了Prompt-MolOpt在实际应用中的有效性。整体而言,Prompt-MolOpt在多性质任务优化中展现了潜力,有望成为分子设计的实用工具。

参考资料

Wu, Z., Zhang, O., Wang, X. et al. Leveraging language model for advanced multiproperty molecular optimization via prompt engineering. Nat Mach Intell (2024).

https://doi.org/10.1038/s42256-024-00916-5

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章