Drug. Discov. Today. | 深度生成模型探索类药物化学空间前沿

学术   2024-09-15 00:02   韩国  

DRUGAI

今天为大家介绍的是来自意大利Antonio Lavecchia的一篇论文。深度生成模型通过复杂且不透明的过程生成新分子,绕过了直接的结构相似性,从而变革了类似药物的化学空间探索。本综述分析了化学空间探索的五种关键架构:递归神经网络(RNNs)、变分自编码器(VAEs)、生成对抗网络(GANs)、正态化流(NF)和Transformer。文章讨论了分子表示的选择、针对特定化学空间探索的训练策略、化学空间覆盖的评估标准以及相关挑战。未来的研究方向包括改进模型、探索新表示法、完善基准测试,并增强模型的可解释性,以更好地理解与生物学相关的分子特性。

药物开发中,发现早期具有药物潜力的先导化合物是一个关键挑战。虽然虚拟筛选方法提供了一种实际途径,但由于化学空间的庞大和药物发现过程的高成本,探索这一空间非常有限。深度生成模型(GMs)通过生成新分子在药物发现中显示出巨大潜力。这些模型能够在化学空间内生成新分子,但评估其有效性和生物学相关性仍面临挑战。现代的生成模型由深度神经网络驱动,超越了传统基于片段的方法,能够整合多种参数进行化学空间探索。本文综述了五种关键生成模型架构,并探讨了分子表示、训练方法、评估标准以及未来改进方向。


深度生成模型的分子表征

深度生成模型中的分子表示方法对药物类化学空间的覆盖效果具有重要影响。主要有两种表示方法:分子图和字符串表示法。


分子图表示法:通过将原子作为节点、化学键作为边来构建分子图,使用邻接矩阵和特征矩阵来描述节点和边的特性。为了更好地处理分子图的复杂性,GNNs等先进算法被应用以捕捉分子的三维结构,生成和预测分子特性。


字符串表示法:SMILES是常用的分子字符串表示法,能够通过简单的语法描述分子结构。为了提高生成模型的有效性,还出现了DeepSMILES和SELFIES等改进版本。SELFIES确保了语法和语义的有效性,但其多样性可能会影响模型从中学习物理化学特性。


每种表示方法都有其独特的化学语言和语法规则。尽管SELFIES避免了化学语法的学习需求,但研究表明熟悉SMILES语法更有助于设计更符合目标化学空间的分子。总体而言,这些表示方法的性能差异依赖于具体应用场景,而基于InChI的表示法由于复杂语法,表现不如SMILES。


深度生成模型架构

GMs的架构在药物化学空间的探索中得到了机器学习和优化算法的增强,这些方法早在深度学习时代之前就已经应用于化学信息学领域。片段法通过重组化学片段并结合单参数或多参数优化技术(如遗传算法、马尔可夫链、蒙特卡罗树搜索和蚁群优化)来生成并优化具有所需特性的分子,这些方法适用于集中或广泛的化学空间探索。片段法基于基本的化学知识生成有效的结构,而深度神经网络则通过训练来学习这些原则,先生成有效的分子表示,然后确保它们与训练的化学空间保持一致。这些训练目标是交织在一起的,因此需要大量数据集。迁移学习(TL)和强化学习(RL)等策略进一步优化了DNN在特定兴趣区域(如目标分子或生物活性分子)的化学空间探索。本文强调了五种关键架构在化学空间探索中的应用:RNNs、VAEs、GANs、NFs和Transformer。


递归神经网络

图 1a


RNNs是一种通过递归连接来存储和处理复杂数据的神经网络,最初用于信号处理和自然语言处理(NLP)。RNNs 在药物化学空间探索中表现出色,特别是在处理线性表示如SMILES时,能够预测分子特性并生成分子。RNN通过递归处理输入序列,在每次迭代中接收上一步的数值向量和隐藏状态矩阵,并输出更新后的向量和状态矩阵。这种机制使RNN适合处理复杂语法和长依赖性的任务,但它们在处理长时间依赖时容易出现梯度消失或爆炸的问题。长短期记忆单元(LSTM)和门控循环单元(GRU)通过选择性保留输入段解决了这一问题,前者适合处理较长序列但可能导致过拟合,而后者参数较少,更适合训练大规模网络。


RNNs不仅适用于NLP和SMILES生成,还被集成到其他深度神经网络架构中,如在GANs中充当生成器模块,或在VAE中作为编码器和解码器模块。通过在所有隐藏状态上添加注意力机制,可以减少长序列中的错误。此外,RNNs还可以处理分子图,尽管生成分子图时会面临较大的输出空间、非唯一表示和复杂依赖关系等挑战。GraphRNN通过自回归方法和广度优先搜索(BFS)节点排序方案来捕捉节点和边的联合概率,解决了这些挑战,并带来了MolecularRNN,它能够生成具有高有效性、独特性和新颖性的分子图。基于价键的拒绝采样确保了生成的分子100%有效,并通过强化学习(RL)优化了药物相似性、亲脂性和熔点等特性。


变分自编码器

图 1b


VAEs是对原始自编码器(AEs)的增强,后者由编码器和解码器两部分组成。编码器将输入结构(如SMILES字符串、分子指纹或分子特征集)转换为低维的潜在向量,解码器则尝试将潜在向量还原为原始的输入结构。AEs可以被训练成将分子映射到潜在空间中,其中邻近区域反映出相似的分子属性或生物活性,但它们在生成相似关系方面的表现有限,因此不太适合作为生成模型。


为了解决这一问题,VAEs在潜在空间中引入了概率分布(通常是多元高斯分布),从而在潜在空间中显式建模分子的概率分布,确保了连续性并反映出相邻区域分子之间的相似性。这种方法适用于从零开始的药物设计,其中条件VAE结合了半监督VAE的思想,当可以计算所有分子的特性时,这些特性会被包含在编码器和解码器的输入中。如果某些特性(如针对特定目标的生物活性)无法直接为所有分子标注,则VAE会与预测网络结合,预测未标注分子的特性,将条件向量视为潜在变量。


2015年,Makhzani等人提出了对抗性自编码器(AAE),它从GANs中引入了判别神经网络,通过对抗性训练使用判别器区分生成器的潜在分布和先验分布,从而避免使用Kullback-Leibler散度。Makhzani等人还提到,AAE可以有条件扩展,分为监督AAE和半监督AAE。在监督AAE中,解码器从潜在向量和条件向量中重构分子。在半监督AAE中,额外的对抗网络确保条件向量的后验分布与预定义的类别分布相匹配。


生成对抗网络

图 1c


GANs由两个对抗的神经网络组成:生成器和判别器。生成器随机生成SMILES字符串,而判别器则区分这些随机分子和训练集中的目标分子。通过迭代训练,生成器逐渐改进,生成与目标分子非常相似的分子结构。训练在判别器无法区分生成器生成的分子和目标分子时停止,此时生成器能够生成所需的分子。


为了使生成器能够生成具有特定特性的分子,GAN的训练与辅助任务结合,生成器生成具有所需特性的SMILES,并通过强化学习在训练过程中优化生成器。像ORGAN和ORGANIC这样的算法就是利用GAN+RL的训练方式进行化学空间的探索。ORGAN用于分子生成,而ORGANIC则专注于逆向分子设计。虽然ORGANIC在优化Lipinski五规则的离散值时面临挑战,但在优化药物相似性定量估计(QED)分数方面取得了成功。


强化对抗神经计算(RANC)和对抗阈值神经计算(ATNC)也采用了GAN+RL的训练方法,使用差分神经计算(DNC)替代了核心的RNN。DNC是一种更复杂的递归架构,包含了具有读、写和删除操作的记忆块单元,这与常规的GRU和LSTM单元的单一隐藏状态形成对比。基于DNC的架构在处理较长的SMILES序列时表现优异,并且与ORGANIC相比,生成的分子多样性更高。LatentGAN是一种将自编码器与GAN算法结合的新方法,用于分子设计任务。与直接使用SMILES作为GAN输入的ORGANIC模型不同,LatentGAN使用由自编码器生成的隐藏变量作为GAN的输入,展现出较大的潜力。


正态化流模型

图 1d


NF模型与VAE和GAN模型不同,NF模型明确表示了概率密度函数,通过深度流模型来进行显式的密度估计。这些概率生成模型使用简单的概率分布来模拟复杂的分布,通过学习一系列从分子数据的先验分布到更简单分布(如高斯分布)的转换,最终将简化后的分布转换回高维分子数据,从而支持从头开始药物设计。


NF模型相比VAE和GAN具有明显优势,包括不需要在输出中使用噪声数据、创建更稳健的局部方差模型、提高训练过程的稳定性和增强收敛性。然而,这些模型也存在一些限制,如可解释性降低和确保生成分子可合成性存在挑战。


NF架构在分子生成的多个模型中得到了成功应用。例如,GraphAF是一种基于流的自回归模型,通过顺序决策过程生成分子图;MoFlow是一种可逆的流生成模型,在分子图生成、重构和特性优化方面达到了最先进的性能;GraphNVP是首个基于流的一步分子图生成模型,使用NF在潜在空间中编码图节点特征和边特征矩阵,随后反向生成图结构。然而,除非加入有效性约束,GraphNVP采用的一步生成方法在分子图生成中可能导致生成分子的有效性不完全。


Transformers


图 1e


Transformer是由谷歌在2017年引入的模型,利用自注意力机制,并因在NLP任务中表现出色而获得广泛关注。像生成式预训练变换器(GPT)、双向编码器表示(BERT)、双向自回归变换器(BART)和文本到文本转换变换器(T5)等模型被广泛用于学习小分子字符串表示的嵌入。


Transformers可以配置为仅包含编码器(如BERT)、仅包含解码器(如GPT)或同时包含编码器和解码器模块的组合。对于分子表示,Transformers通常采用掩码机制,即将标记化的SMILES字符串随机掩盖,然后模型预测原始未掩盖的字符串,从而学习有效字符串序列的规则,生成具有化学信息的分子嵌入。像Chemformer这样的模型展示了Transformer在小分子序列建模中的有效应用。


Transformers通过多头自注意力机制结合全连接前馈神经网络层,能够并行处理输入序列的不同部分,捕捉长距离依赖关系,使其在处理和翻译序列任务中非常高效,因而在化学中的机器翻译任务中受到青睐。


Transformers不仅能够将分子编码到潜在空间,还可以将向量解码回小分子,这种双重能力促进了基于潜在空间模式生成新分子。尽管早期模型在生成化学可合成分子方面表现不佳,但随着小分子设计和药物发现领域的生成模型不断进步,Transformers提供了强大的工具来探索广阔的化学空间。


Transformers在从头开始药物设计中展现了巨大的潜力。例如,AlphaDrug使用修改版的Transformer方法来优化蛋白质信息的学习,并结合蒙特卡罗树搜索来指导分子对接,表现出色。多约束分子生成(MCMG)通过强化学习和知识蒸馏来训练条件Transformer,从而有效生成具有多种所需特性的分子。类似地,条件分子生成网(CMGN)根据特定属性自回归地从片段中重建分子,而RegressionTransformer在回归任务中生成高质量的分子属性。MolFormer则探索了超越基于字符串表示的分子图生成。


此外,Transformers的跨领域翻译能力被用于训练生成模型。例如,Grechishnikova的Transformer将氨基酸序列翻译为SMILES,用于生成针对特定蛋白质的分子;TransAntivirus则将IUPAC命名翻译为SMILES,并通过选择和替换编辑来转化输入分子,助力抗病毒化合物的发现。


化学空间的训练与定向探索

深度神经网络可以在小型数据集(约1万分子)上进行训练,但在生成有效分子表示的同时,可能无法完全捕捉到参考集的化学空间。探索特定的化学空间并优化样本分子的特定特性(如生物活性)是一个核心任务,但数据量往往不足以支持生成模型的训练。为了解决这一问题,出现了两种主要的学习策略:迁移学习和强化学习。


迁移学习是一个两步过程,通过将一个任务的知识应用于相关任务来提高模型性能。首先,使用大数据集(105到106个分子)通过字符预测进行预训练,然后用具有目标特性的较小分子集(如对特定靶标的生物活性)进行微调,从而引导模型向相关的化学空间发展。这种预训练大大减少了在最终集中数据集上的训练时间,并提高了模型的性能。然而,TL在小分子数据集中的应用还处于初期阶段,需要进一步研究任务相关性、数据相似性和任务迁移的有效性。关键挑战包括量化任务相关性、处理迁移边界以及在多任务或多领域情况下有效传递知识。


强化学习通过评分函数来引导生成分子模型探索特定的化学空间区域。在药物设计中,RL包含三个基本组成部分:智能体、奖励函数和环境。智能体(通常是生成模型)通过最大化奖励函数来生成分子,而环境则代表复杂的化学空间。奖励函数基于药物相似性、生物活性或合成可行性等特性,指导智能体朝着用户定义的目标采取行动。智能体选择的行动质量由奖励函数根据特定领域的规则进行评估,并提供反馈以优化未来的行动。


RL通常与RNNs、AAEs和GANs集成,提供了探索和优化化学空间的强大方法。例如,Blaschke等人开发了REINVENT 2.0工具,结合了RNNs的TL和RL,用于生成集中数据集。在训练过程中,潜在空间中的邻域关系可以调整以反映化学特性的相似性。Gomez-Bombarelli等人和Colby等人将VAE和DNN训练整合到潜在空间中,以提高特性预测的准确性,使潜在空间的相似性与化学特性相似性一致。Sattarov等人利用生成拓扑映射(GTM)来映射潜在空间,识别具有目标生物活性化合物的密集区域,以便生成集中的分子库。AAEs通过判别器直接控制潜在表示中的分子分布,改善了表示的连续性。Polykovskiy等人和Hong等人将分子表示与特性结合,用于条件分子生成,在潜在空间训练过程中独立于特定分子特性,并在解码器中使用特性向量来生成具有目标属性的分子。


用于表征生成化学空间的验证指标

生成模型创建的化学空间通过生成大量分子表示并分析其属性进行评估。关键指标包括有效性、新颖性和独特性。


  • 有效性:评估模型创建语法正确的化学结构的能力,其重要性取决于表示类型。基于图形或像SELFIES这样的专用线性表示通常能生成有效的结构,而SMILES表示可能面临更多问题。

  • 新颖性:衡量生成的化学空间中包含多少与训练集相比从未见过的新分子。

  • 独特性:反映生成的独特分子比例,取决于样本的大小,体现了模型所覆盖的化学空间。


对于远大于其训练集或采样子集的化学空间,生成模型通常在新颖性和独特性指标上接近100%。从模型中采样足够数量的分子可以估计化学空间的覆盖范围;例如,从一个大小为N的化学空间中采样N个分子通常会产生约37%的重复项,这在GDB-13数据集的研究中得到了验证。


虽然有效性、新颖性和独特性确认了生成模型对新化学空间的探索,但并不能完全表征其生物学和物理化学性质。实际评估主要集中在计算上可行的属性上,如分子量、原子组成、拓扑描述符和物理化学性质,如辛醇-水分配系数[logP(O/W)],这些属性由成熟的计算模型支持。复杂的描述符如合成可及性分数(SA)和药物相似性定量估计(QED)在探索生成模型的虚拟化学空间时非常关键。


为了比较属性分布,常用的度量指标包括Jensen–Shannon距离、Wasserstein距离或Kullback–Leibler散度。评估化学空间的结构组成则涉及使用Tanimoto系数和结构指纹,以及分析片段和骨架分布。Preuer等人引入了Fréchet ChemNet距离(FCD)来衡量化学空间的生物学相关性。FCD受图像分类中的Fréchet inception距离的启发,利用了ChemNet神经网络,其最后的隐藏层激活被建模为高斯分布,用于参考化学空间和生成化学空间的比较。


总结意见与未来展望

深度生成模型的发展极大地改变了药物化学空间的探索,能够生成新分子并探索未开发的领域。虽然从传统的基于片段的方法转向适应性更强的深度神经网络架构,但仍存在许多挑战。SMILES仍然是主要的分子表示方法,替代方案如DeepSMILES和SELFIES仍未被广泛采用。此外,SMILES和分子图表示法缺乏对于药物活性至关重要的3D结构信息。尽管GPU集群的可负担性提高和预训练模型的可用性使GMs更具吸引力,但模型是否能有效学习生物活性相关属性仍然有待验证。未来的研究将集中在提高解释性AI的能力,以更好地理解DNN在化学空间探索中的表现。

编译 | 于洲

审稿 | 曾全晨

参考资料

Lavecchia A. Navigating the frontier of drug-like chemical space with cutting-edge generative AI models[J]. Drug Discovery Today, 2024: 104133.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章