机器学习(Machine learning)方法在药物发现(drug discovery)领域已得到广泛应用,从而可以实现更强大、更高效的模型。在深度模型出现之前,分子(molecules)建模主要由专家知识驱动;而这些手工设计的规则不足以表示分子图景(molecular landscape)的复杂性。深度学习模型之所以强大,是因为它们可以学习问题的重要统计特征——但只能使用正确的归纳偏差。我们在两个分子问题的背景下解决了这个重要问题:表示和生成。深度学习的典型成功深深植根于其将输入域映射到有意义的表示空间的能力。这对于分子问题尤其重要,因为分子之间的“正确”关系微妙而复杂。
本论文的第一部分将重点介绍分子表示,特别是性质和反应预测(property and reaction prediction)。在这里,我们探索了一种用于分子表示的transformer-style架构,提供了将这些模型应用于图结构对象(graphstructured)的新工具。我们摆脱了传统的图神经网络范式(graph neural network paradigm),展示了原型网络(prototype networks)对分子表示的有效性,这使我们能够推理学习到的分子属性原型(property prototypes of molecules)。最后,我们在改进反应预测的背景下研究分子表征。
本论文的第二部分将重点介绍分子生成(molecular generation),这在药物发现中至关重要,是提出有希望的候选药物的一种手段。在这里,我们开发了一种多属性分子生成的新方法,首先学习分子片段的分布式词汇表。然后,我们利用这个词汇表,研究化学空间(chemical space)中的有效探索方法。
论文题目:Molecular Graph Representation Learning and Generation for Drug Discovery
作者:Benson Chen
类型:2022年博士论文
学校:Massachusetts Institute of Technology(美国麻省理工学院)
下载链接:
链接:https://pan.baidu.com/s/1NQtO1Y_tsmgURsdq2KKLjg?pwd=ok6a
硕博论文汇总:
链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5
机器学习迅速改变了传统的药物发现流程,为流程的每个步骤提供了新工具。许多传统上需要大量专家领域知识的问题已通过深度学习工具得到解决,从而使其更加高效和便宜。先前的化学信息学方法使用许多手工设计的规则来模拟小分子。这些技术用于解决诸如属性预测之类的问题,其中的任务是预测分子的属性,例如效力。然而,试图解决这些表示问题的传统方法由于其不灵活的性质而缺乏很好的泛化能力。深度学习模型的变革性在于模型能够直接从数据中学习和提取重要特征。然而,这只有在模型具有正确的结构偏差和建模假设的情况下才有可能实现。在分子问题上天真地应用深度方法会限制模型的能力或实用性,从而妨碍其泛化能力和在实践中的实用性。因此,运用正确的归纳偏差的重要性不容低估。
在深度学习方法出现之前,分子建模需要大量工程和固定表示,通常称为定量结构活性关系 (QSAR) 方法。在这些方法中,指纹技术非常流行,可以大致分为几种类型,包括基于结构的 [30]、拓扑 [1]、圆形 [8] 和药效团指纹 [91]。其中一些指纹(如基于结构的 MACCS [30] 指纹)是高度特定的表示,由一组固定的预定义结构的指示函数组成。其他指纹(拓扑和圆形)包括摩根指纹,更加灵活。这些指纹通过枚举路径或圆形邻域来捕获局部拓扑。然而,问题仍然在于生成方法的确定性:如果这些预定义规则不能捕获任务的正确表示,它们将无法很好地工作。例如,属性悬崖(一种相似分子表现出不同属性的现象)仍然是许多小分子问题的一个挑战性问题。这个问题对于分子指纹来说尤其突出,因为特征化是固定的。然而,使用深度模型也不能解决这个问题,因为深度模型很容易过度拟合数据,并且泛化能力较差。
因此,我们的深度学习模型必须包含正确的结构偏差。图神经网络通过迭代聚合方案运行,其中在每个步骤中,节点都会从其邻居聚合信息。
随后,节点应该包含越来越多有关更大邻域的信息。节点表示最终聚合为表示图的单个向量。虽然有时有效,但这种简单的范例可能并不总是包含分子任务的正确偏差。例如,这种局部邻域聚合可能无法捕获在考虑分子特性时很重要的长距离依赖关系。更重要的是,二维分子图上的聚合可能不适合理想的分子表示,我们应该研究三维结构。开发分子深度模型有很多考虑因素,但它们需要正确的结构才能有效。指纹表示很简单,但它们不灵活,而且往往涉及很多人为设计的规则。另一方面,深度模型很容易过度拟合,无法捕捉正确的结构表示。
1.1 机器学习在药物发现中的应用
考虑到这一点,我接下来将解释机器学习如何应用于药物发现,以及我使用更多受化学启发的模型来解决这些问题的努力。药物发现是一个由几个阶段组成的过程,机器学习特别适合早期药物发现,寻找新的药物分子。在发现阶段,对大型分子库进行高通量筛选 (HTS),产生候选分子,称为命中分子。然后,这些命中分子经过更多的筛选和优化,以生成一组较小的先导分子。通常,HTS 过滤器非常宽松,只测试普遍适用性,而生成先导化合物则需要更严格的评估和优化。一旦先导化合物得到进一步优化,有希望的候选物就会在动物身上进行测试,随后进行人体试验。
命中化合物和先导化合物的选择是机器学习方法实现新改进的理想前沿。为了寻找命中化合物,需要进行生物测定以评估大量分子库的性质。使用机器学习,我们可以进行虚拟筛选 (VS),即使用计算工具来预测性质,而不是进行实际测定。这使我们能够加快筛选过程,并能够筛选出更大的分子集。在机器学习之前,QSAR 方法广泛应用于虚拟筛选。QSAR 方法最基本的形式是使用各种手工设计的描述符,例如包括原子和键数、分子量和环信息在内的简单特征;更复杂的描述符包括高阶拓扑特征和物理化学性质。然而,如前所述,这些依赖大量手工设计特征的方法可能会因未捕获正确的表示而导致拟合不足,或者因引入许多噪声特征而导致拟合过度。
一旦发现目标化合物,通常需要对其进行优化。这是一个具有挑战性的问题,因为药物除了生物活性外,还需要满足多个约束条件:它们必须表现出某些特性,如水溶性或无毒性。当优化一种特性时,其他特性可能会发生变化,这使得这是一个难以解决的组合问题。通常,化学家会测试目标化合物的结构类似物[59]以优化这些分子。这些类似物是通过 QSAR 等方法获得的,通常需要大量的专业知识。
机器学习工具可以大大提高模型在这些药物发现任务上的表现。例如,图神经网络已经被证明在许多属性预测任务上达到了最先进的性能[144]。也许在更令人兴奋的层面上,机器学习方法也可以生成新的分子,而不是依赖人类化学家的专业知识。例如,机器学习方法可以从更大的药物分子数据库中汇集信息,并对分子进行更具信息量的优化。但是,由于这些化学问题本质上极具挑战性,再加上训练数据通常很嘈杂,深度模型需要精心设计才能有效地学习和推广到这些领域。这是我的论文的重点,我将讨论如何建立了解化学知识的模型,并更好地适应化学家在实践中如何思考这些问题。
1.2 论文概述
接下来,我将概述这篇论文的布局,详细介绍我对该领域的技术贡献。在第 2 章中,我将介绍分子的不同表示形式及其改进的新模型。在下一章(第 3 章)中,我将讨论另一种借鉴原型学习思想的新图神经网络范式。第 4 章将讨论逆合成,以及我们如何产生准确而多样的合成建议。最后,第 5 章将介绍一种新的分子优化方法。
第 2 章深入探讨了使用深度学习进行药物发现的最基本问题之一,即图的表征学习。首先,我将讨论分子的传统表示方式,即使用称为指纹的结构哈希。然后,我将继续介绍如何在深度学习框架中学习分子。为了推理分子图的复杂离散结构,我们必须施加正确的归纳偏差。在这里,我介绍了如何增强典型的消息传递神经网络以改进属性预测。我开发了一种新方法,可以更好地捕捉分子图的连通性,而典型的 MPNN 中常用的局部运算符通常被证明是不够的。
在第 3 章中,我将讨论一种完全不同的参数化学习问题的方法,该方法利用了原型学习的思想:关键的表示步骤包括将每个输入图与一组抽象原型进行比较。典型的 MPNN 计算节点嵌入并使用简单的总和或平均聚合来聚合它们,这可能会丢失结构或语义信息。我将介绍一种学习原型点云的新模型,并计算到这些点云的最佳传输 (OT) 距离,以便推理输入分子图。这是一个通用框架,可以灵活地应用于任何图神经网络,并显示出良好的经验性能改进。此外,我通过学习到的点云证明了该模型具有良好的可解释性。
接下来在第 4 章中,我将讨论药物发现流程中的一个不同问题,即逆合成,这是一项关键任务,旨在预测生成给定目标分子所需的反应物。传统上,这项任务是使用基于模板的方法解决的,这些方法将转换规则编码为对 SMILES 字符串进行操作的正则表达式,通常直接从可用的训练反应中提取。然而,这些方法极大地限制了算法的通用性。我介绍了一种解决逆合成问题的新方法,使用新颖的预训练思想并引入混合分布先验。该模型比以前的基于模板和无模板的模型表现出更好的泛化能力,并且可以生成更多样化的预测,正如人类化学家所评估的那样。
最后,在第 5 章中,我将讨论分子图的生成模型,这很令人兴奋,因为它们为机器提供了一种媒介,使机器能够完成传统上仅限于人类化学专家才能完成的工作。传统上,分子的生成是通过逐个原子生成或使用固定片段词汇表来实现的。与以前的框架不同,我的模型学习了分子片段的分布,并通过从学习到的分布片段词汇表中添加和删除分子片段来构建分子图。这使得生成模型能够跨越比具有固定片段词汇表的模型大得多的化学空间。我进一步介绍了一种用于分子优化的新型生成方案,该方案通过从已知的活性分子翻译开始搜索,并将发现的分子存储为后续搜索的新潜在初始化状态。
机器学习极大地影响了药物发现的计算方面:通过传统统计方法解决未被充分探索的问题。然而,深度学习的平淡应用往往不尽如人意:模型需要正确的领域知识和归纳偏差才能正常工作。我表明,通过适当的建模选择,我们可以在实践中大大提高这些模型的性能和实用性。
GCN(左)和我们的 PAGTN 模型(右)的图形传播属性说明。对于 GCN,源注意节点(绿色)仅关注其直接邻居(蓝色)。在 PAGTN 中,源注意节点(绿色)以其局部邻域的路径特征形式具有连接信息,𝑑 = 2,(蓝色),但也关注所有其他节点(黄色)。
两个绿色圆圈内的原子完全对称,因此它们的输出特征嵌入是等效的。由于环成员预测是通过聚合成对节点特征来进行的,因此无法判断任何其他原子是否与这两个原子处于相同或不同的环中。
我们的 OT-GNN 原型模型根据 (a) GNN 节点嵌入集和 (b) 原型嵌入集之间的 Wasserstein 距离计算图嵌入。然后,这些距离用作监督任务(例如属性预测)的分子表示 (c)。我们假设一些原型(例如一些功能组)突出显示与手头的特定下游任务相关的图的关键方面或结构特征。我们通过将图与这些表示为自由点云参数的抽象原型相关联来表达图。
对于给定的 2D 点云,我们说明了通过最小化 Wasserstein 成本获得的最佳传输计划;𝑐(·, ·) 表示欧几里得距离。虚线厚度越大,表示质量传输越大。
就相应的 Wasserstein 距离而言,与某些特定原型最接近的分子。可以观察到,一些原型更接近含有环的不溶性分子(原型 2),而另一些原型则更接近更可溶的分子(原型 1)。
预测任务示例:左侧是输入目标 SMILES,右侧是输出反应物 SMILES。输入是单个分子,而输出是一组用句点(“。”)分隔的分子。
对于左侧显示的输入目标化合物,右侧显示了三种可能的反应物预测。预测 1 建议进行杂环形成反应,而预测 2 和 3 都建议进行取代反应。后两者之间的唯一区别是红色突出显示的卤化物官能团(Cl vs Br)。它们具有相似的化学性质,因此不会为化学家提供额外的见解。
单个分子有许多不同的 SMILES 表示。左侧 (a) 是规范的 SMILES 字符串,右侧 (b) 是代表同一分子的另一个 SMILES 字符串。
输入目标分子 (1),通过断开键自动生成两个预训练目标,以红色突出显示。示例 (2) 和 (3) 分别由随机和基于模板的方法生成。唯一的区别是基于模板的预训练示例 (3) 为分子添加了一个额外的功能组 (蓝色)。
模板示例,其中确切的键变化用红色表示。“C-N”键(左)断裂,断裂的“C”原子上附着一个“Br”原子(右)。
一个光束搜索示例;很多时候,光束搜索的输出会非常相似,这里前 3 个预测只有一个原子不同。特别是对于 SMILES 字符串,这通常会导致属于同一组的预测(即仅交换卤化物原子)。
FaST 概述。FaST 以两步方式进行训练。在第一步中,我们训练一个嵌入分子片段的 VQ-VAE。在第二步中,我们训练一个使用学习到的潜在空间作为动作空间的搜索策略。搜索策略通过从边界集 𝐹 中采样一个分子来开始一个情节,该边界集由一组初始起始分子 (ℐ) 和策略发现的好分子 (𝒞) 组成。分子由 MPNN 编码,然后用于预测添加或删除操作。当选择添加操作时,模型会预测并采样一个原子作为附着点,随后预测一个片段附着到该原子上。当选择删除操作时,模型会采样一条有向边,指示要删除的分子片段。