作者:田小幺
编辑:十九
华中师范大学团队开发了一种名为 DigFrag 的数字化分段方法,该方法分割的片段结构多样性更高,并且基于这些片段生成的化合物更符合预期的化学特性。
过去几十年,基于片段的药物发现 (FBDD) 通过识别与靶标蛋白有微弱相互作用的小分子片段,并优化这些片段的结构信息,可以开发出活性更高的先导化合物,在新药研发中发挥了重要作用。
尽管 FBDD 在药物发现和开发领域扮演着关键角色,但构建和筛选有效的分子片段库一直是该领域的主要挑战。传统的 FBDD 方法依赖于经验直觉,限制了它们发展多样化结构的能力。幸运的是,AI 的出现为这一挑战提供了变革性的解决方案。
近期,华中师范大学杨光富教授和王凡副教授团队等开发了一种名为 DigFrag 的数字化分段方法。该方法通过在分子图 (molecular graph) 上进行局部聚焦,突出关键的子结构 (substructures),并将这些子结构分割成片段。实验结果表明,DigFrag 分割的片段展现出更高的结构多样性,并且基于这些片段生成的化合物更符合预期的化学特性。这表明,采用 AI 方法生成的数据可能更适合于 AI 模型的训练和应用。
该研究以「DigFrag as a digital fragmentation method used for artificial intelligence-based drug design」为题,已发表在国际学术期刊 nature communications chemistry。
研究亮点:
* 研究发现,基于 DigFrag 分割的片段与 AI 模型结合时,能够有效地生成具有期望性质的分子
* 该研究通过精确筛选,最终确定了 24 个药物分子和 20 个农药分子
* 团队开发了一个用户友好的平台 MolFrag,整合了多种片段化技术,可支持更广泛的分子分析和设计工作
论文地址:
https://doi.org/10.1038/s42004-024-01346-5
关注公众号,后台回复「分子片段化」获取完整 PDF
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:自建数据库 PADFrag,收录近 3,000 种药物数据
该研究所使用的建模数据集主要来源于自建的数据库 PADFrag。具体来看,PADFrag 数据库主要收录了 DrugBank 数据库中 FDA 批准的药物目录,包含 1,652 种药物,以及 Alan Wood 列出的商业杀虫剂,共计 1,259 种。
*为探索药物发现的生物活性片段空间而构建的数据库 PADFrag
https://pubs.acs.org/doi/10.1021/acs.jcim.8b00285
为了确保数据的一致性和可靠性,研究团队排除了那些结构不标准的化合物。随后,按照 8:1:1 的比例,将整个数据集划分为训练集、验证集和测试集,以便于模型的训练、评估和测试。
DigFrag:工作流程 3 步走,可获得结构多样性更高的片段
DigFrag 是一种创新的数字化分段方法,它利用图注意力机制 (graph attention mechanism) 来识别和分割药物/农药类片段,核心优势在于其能够从机器智能的角度出发,而不是单纯依赖人类专业知识,从而获得结构多样性更高的片段。
此外,该研究整合了 BRICS、RECAP、MacFrag 和 DigFrag 四种方法分割的片段,并将其集成到 DeepFMPO 模型框架中,进而生成药物分子,并评估它们在不同指标上的表现。
最后,基于多种分子片段化技术,研究人员开发了一个用户友好的平台 MolFrag,以支持分子的分割工作。
具体来看,该研究的工作流程分为 3 个部分:
第一,基于 AI 的片段化方法:该研究基于图神经网络 (Graph Neural Network, GNN) 架构,采用 DigFrag 方法对分子进行片段化处理。
基于 AI 的片段化方法
如上图 A 所示,研究人员将分子图 (molecular graph) 定义为 G=(V, E),其中 V 代表节点,对应于分子中的原子,而 E 代表连接边,对应于原子之间的化学键。这一过程中,基于图注意力机制的特征提取网络 (feature matrix),原始分子图首先被输入到一系列注意力层 (attention layers) 中,目的是为每个原子获得单独的嵌入表示。这些原子嵌入随后被聚合,形成一个统一的向量,也被称之为超级节点 (super node)。最终,通过进一步的注意力层处理,得到了整个片段 (fragments) 的嵌入表示。
第二,Actor-Critic 模型框架:如下图 B 所示,为了进一步阐明数字化分段对基于片段的深度生成模型的影响,研究人员整合 BRICS、RECAP、MacFrag 和 DigFrag 四种方法分割的片段,使用一个开源的基于片段的强化学习的二维分子生成工具 DeepFMPO 架构进行研究。
*DeepFMPO 是一种 Actor-Critic 强化学习模型,通过替换化合物中的片段来获得所需的化合物。
Actor-Critic 模型框架
第三,建立在线平台:尽管已有多种分子片段化方法,但缺乏易于操作的在线服务器。因此,如上图 C 所示,该研究基于各种碎片化技术,开发了一个用户友好的平台 MolFrag。平台无缝结合了 BRICS、RECAP、MacFrag 和 DigFrag 四种分子片段化方法,可确保不同专业水平的研究人员都能使用。
MolFrag 平台地址:
https://dpai.ccnu.edu.cn/MolFrag/
在线平台
研究结果:DigFrag 分割的分子片段多样性更高
DigFrag 分割的片段可旋转键数量较多
研究首先训练模型以精确分割药物和农药片段。接着,研究人员通过五折交叉验证,深入比较了 DigFrag 与传统 (RECAP、BRICS) 及最新 (MacFrag) 方法所得片段的模型准确率、曲线下面积 (AUC) 和马修斯相关系数 (MCC) 这 3 个关键性能指标。如下表所示,在药物片段的性质分布上,DigFrag 分割的片段与 BRICS 分割的片段更为相似。
BRICS、RECAP、MacFrag 和 DigFrag 方法分割药物片段的性质
如下表所示,尽管 DigFrag 分割的药物片段分子量 (Molecular Weight) 和氢键受体数量 (Number of H-Bond Acceptors) 上与 BRICS 分割的片段相似,但其可旋转键数量 (Number of Rotatable Bonds) 较多,可能与其独特的环状结构断裂方式有关。在农药片段方面,DigFrag 分割的片段平均分子量较低。
BRICS、RECAP、MacFrag 和 DigFrag 方法分割农药片段的性质
DigFrag 分割的片段具有更高的结构多样性
在对 DigFrag 方法与传统方法 (RECAP 和 BRICS) 以及最新方法 (MacFrag) 进行比较时,该研究的重点在于评估分割片段的结构多样性。结果显示,DigFrag 在药物、农药片段中分割的片段与其他 3 种方法的重复率较低,分别为 9.97%-21.37% 和 8.94%-15.20%,表明其能生成独特片段。而 MacFrag 覆盖了 BRICS 和 RECAP 的大部分片段,暗示其并非完全创新,而是传统方法的延伸。
不同方法获得的药物/农药片段之间的重复数量
研究人员还用 t-SNE 算法可视化了化学空间分布。如下图所示,DigFrag 在片段聚类比率上表现突出,尤其在相似性阈值 (similarity thresholds) 处于 0.4 和 0.6 的时候,可显示出更高的结构多样性。
不同相似性阈值下药物片段和农药片段的聚类比率
注:聚类比率是可直观地反映片段集中的整体结构多样性
基于 DigFrag 的模型可产生更高质量的分子
在 MOSES 基准测试平台上,该研究对比了不同生成模型的性能。如下图两张表的数据显示,基于 DigFrag 的模型在 Filters 得分上达到 0.828,显示出更高的安全性,这可能归因于深度学习在片段化过程中对毒性和稳定性的综合考量。
四种深度生成模型对药物和农药分子的性能评估
如下图所示,在农药分子方面,基于 DigFrag 的模型生成的分子片段在 SMILES 有效性、新颖性、骨架多样性和 structure alerts 方面表现卓越。此外,DigFrag 模型生成的药物和农药分子片段在定量估算 (QED) 和合成可及性 (SA) 的平均值分析中优于其他模型。
四种深度生成模型分割的代表性分子片段的质量
此外,DigFrag 分割的分子片段在分子量、QED 和 SA 属性分布上与 MOSES 数据集的相似性最高。这些结果表明,基于 DigFrag 模型能产生更高质量的分子,同时强调了 AI 模型在分子设计中对 AI 来源数据的偏好,凸显了 AI 技术在该领域的应用优势。
精选 44 个高效低能的药物和农药分子
最后,经过精确筛选,该研究确定了 24 个药物分子和 20 个农药分子,它们均符合 QED 值大于 0.75、SA 值小于 3,以及结合自由能低于多潘立酮 (-10.7 Kcal/mol) 和美索三嗪 (-8.4 Kcal/mol) 的标准。
该研究进一步分析了这些分子与靶标的相互作用。如下图所示,研究发现药物分子能有效结合 DRD2 活性口袋 (active pocket),并与关键氨基酸残基形成氢键。
通过 AutoDock 分析生成的药物分子与 DRD2 的结合模式
不仅如此,如下图所示,农药分子通过与 HPPD 的氨基酸残基形成氢键稳定结合。与阳性药物相比,生成的化合物也展现了不同的结合模式 (bindingmode),暗示可能存在不同的药理作用机制,这为未来的研究提供了新的方向。
利用 AutoDock 分析农药分子与 HPPD 的结合模式
AI 在药性研究中的应用重塑游戏规则
现阶段,AI 在药性研究中的应用正变得日益深入。通过深度学习网络, AI 模型能够分析复杂的生物数据和化学结构,从而预测药物分子的活性和选择性。
本文研究提到的杨光富教授和王凡副教授团队,今年初还联合开发了一个预测类农药性的多模态深度学习架构模型 Pesti-DGI-Net,可通过整合分子描述符、分子图像以及分子图这 3 种分子表征形式对化合物的类农药性进行预测。结果表明,Pesti-DGI-Net 在多个指标上均表现出优越的性能。
论文链接:
https://doi.org/10.1016/j.compag.2024.108660
除此之外,AI 近来在药性研究领域的研究成果颇丰。前不久,中国科学院上海营养与健康研究所构建了一个双视图深度学习模型 JointSyn 来预测药物组合的协同效应。结果表明,JointSyn 在各种基准的预测准确性和稳健性方面均优于现有的最先进方法。
论文链接:
https://doi.org/10.1093/bioinformatics/btae604
除了在药性预测方面的应用,AI 技术还在药物设计优化、毒理学和安全性评估、临床试验设计以及患者选择等多个领域取得了显著研究成果。可以预见,AI 在药性研究中的应用正在重塑药物开发的游戏规则,随着技术的不断进步,或将通过提高预测的准确性、优化药物设计、降低开发成本和时间,为患者带来更安全、更有效的治疗方案。