DRUGAI
人工智能(AI)和机器学习(ML)在药物发现领域的兴起,得益于计算机科学、基础设施的重大进步以及“大数据”的爆发式增长。同时,人们期望AI在其他领域的进展(如虚拟助手、图像生成、自动驾驶和蛋白质结构预测)能够复制到药物发现领域。对于希望加速将新疗法推向市场的制药公司、生物技术公司和合同研究组织(CRO)而言,AI/ML技术的部署已成为提升药物研发管线的关键选择。这些企业需要在“自建”与“购买”之间做出决定,即是投资内部团队和基础设施,建立内部能力,还是与具备AI能力的公司合作。
值得注意的是,ML在药物化学中的应用早在40多年前就已开始。然而,随着近年来尤其是深度学习领域的快速发展,这些方法现已对药物发现流程的各个阶段产生影响,从早期的靶点识别到候选分子发现和先导化合物优化。具体应用包括超大化学数据库的虚拟筛选(VS)用于候选分子发现、预测活性及其他关键终点的ML模型,以及从零构建分子结构的生成设计算法。
本文将以作为一家参与药物发现(及开发)合作的CRO视角展开讨论。在竞争激烈的市场中,保持对AI/ML技术进步的敏锐洞察至关重要,因为潜在合作伙伴希望通过整合这些工具,在项目中生成和利用高质量的实验数据。对研究人员而言,这种承诺对于确保全面且稳健的药物发现过程尤为重要。
然而,由于生物系统的复杂性、高质量训练数据的有限性,以及化学描述符对化学相互作用的表征能力不足,实验数据的准确预测仍然是一个挑战。同时,AI的采用还面临文化障碍。药物发现过程中的决策偏见是一个广为人知的问题,这些偏见可能阻碍进步,并妨碍AI/ML技术的整合,因为它们隐性地挑战了传统的工作方式。此外,关于AI/ML技术有效性及其加速药物发现进程的夸大宣传,使得这一问题更加复杂。目前,市场尚未见到通过AI/ML方法完全开发的疗法,因而下定论为时尚早。
研究人员的经验表明,结合成熟的计算机模拟方法、AI/ML技术与人类经验可以实现最佳结果。研究人员决定增强内部能力,这与公司创新的理念保持一致。构建自身能力不仅可以通过成本效益的方式评估和开发最适合的AI/ML技术,还能促进内部人才的成长。他们的组织覆盖从早期靶点发现到临床试验支持的整个流程,包括多种治疗模式。AI/ML正在以多种方式影响我们的工作,例如支持治疗性抗体和小分子靶向降解剂的设计。然而,本文将聚焦于小分子药物化学,从候选分子发现到后期先导化合物优化的应用。
AI/ML 方法学与应用
化学空间的机器表示
深度学习在化学信息学中的一个重要发展是化学空间的机器表示。通过在大型化合物数据库上训练深度神经网络,化合物可以用向量表示。这些表示被称为潜在空间,因为它们通过数据集的数学推导而得,能够提取其中的本质特征。给定向量(潜在空间中的位置)可以解码为化学结构,这比传统的分子指纹表示具有显著优势。这一特点使得能够快速识别新区域中的感兴趣化合物。例如,通过向量插值可以探索中间化学结构,从而进入可专利的化学空间。
一个开创性例子是“连续数据驱动描述符”(CDDD),我们广泛使用这一工具进行化合物设计。CDDD 是一种自动编码器(AE),同时基于化学结构(如 SMILES)和化学性质(如极性表面积和疏水性)训练,将化学和物理性质相似的分子推向相似的潜在子空间。这种训练方式为迁移学习提供了便利,能够通过添加特定项目的新数据,专注于项目目标和化学性质。
研究人员开发了基于自动编码器的内部序列到序列(Seq2Seq)模型,结合递归神经网络(RNN)和 Transformer 架构,并在内部精选数据集上训练。这些模型提升了任务的性能和灵活性,包括覆盖分子量大于 600 Da 的化合物以及为定量构效关系(QSAR)模型构建提取潜在特征。通过在相同潜在空间中结合 QSAR 和深度生成化学(DGC),我们使用贝叶斯优化和粒子群优化等算法执行逆向 QSAR/逆向设计,生成符合 QSAR 模型预测的优化化合物。
机器学习(ML)
ML 预测分子结构的活性、吸收、分布、代谢、排泄及毒性(ADMET)终点和理化性质的应用广泛。预测模型的质量取决于训练数据的质量。研究人员对实验数据进行严格的标准化筛选,以排除不可靠或不一致的测量结果,同时实施自动化 ML 工作流,覆盖结构准备、描述符计算、模型选择、超参数优化及模型交付,并通过解释性技术解读模型预测结果。
近年来,深度学习技术在 QSAR/QSPR 建模中的应用前景广阔,特别是图神经网络(GNN)。虽然传统 ML 算法通常在小规模数据集上表现更优,但 GNN 在大规模数据集上可以显著提升模型的性能和鲁棒性。
生成设计
利用深度生成化学设计目标化合物成为药物化学中的一项强大工具。研究人员采用 REINVENT 等工具,通过强化学习生成具有改进评分的化合物设计。在后期阶段,高级 QSAR 模型和计算化学工具进一步优化生成化合物的性质。研究人员发现,生成工具的应用并非“简单按键式”过程,其结果的后处理至关重要,以提高生成化合物的可靠性和实用性。
蛋白建模
准确的蛋白质模型对于药物发现项目至关重要。AlphaFold 2 的出现显著提高了蛋白质结构预测的精度。研究人员将 AlphaFold 与 ProteinMPNN 结合,用于提高蛋白稳定性和产量,并通过 AlphaFold Multimer 预测蛋白复合物的 3D 结构。这些工具为靶点可成药性估算、虚拟筛选和分子对接提供了强大的支持。
主动学习
数据有限且生成成本高的情况下,主动学习(AL)能够高效生成足够的数据。研究人员利用 AL 引导化学空间的探索,并结合虚拟筛选工具和高级分子动力学评分方法,专注于性能最佳的化合物。
合成可行性与逆向合成预测
化合物合成是药物开发周期中最耗时的步骤之一,因此其可行性在设计阶段非常关键。AI 辅助合成规划(CASP)工具的出现,使合成可行性的评分或过滤成为可能。尽管目前的工具尚未达到药物化学团队的专业水平,但结合内部数据的使用可以显著提高其有效性。
安全性评估
设计化合物时,还需考虑其安全性风险。AI/ML 方法可以在早期阶段标记潜在风险,降低后期成本。通过高通量组学技术生成的数据集,可以训练 AI 模型预测化合物的毒性风险,并适用于小分子和生物药物。
计算管线
随着新设计方法的涌现,评估和优先排序大量虚拟化合物的需求增加。通过参数化的多目标优化评分(MPO),研究人员能够排名虚拟化合物,并优先合成最有前景的化合物。同时,研究人员不断改进自动化管线,以适应项目的快速变化需求。
药物化学项目中的 AI 应用
AI 工具的兴起、物理计算方法的影响力增强以及计算成本的降低,推动了制药企业工作模式的变革。研究人员将设计、决策、合成、测试与学习(D2MTL)集成,强调决策阶段的重要性。通过结合主动学习和人机协作的分子设计,这一工作方式有助于实现药物优化的目标,并增强药物化学和计算化学之间的相互理解。
结论与未来展望
人工智能(AI)在药物化学领域的整合是近年来计算化学方法学中最重要的发展之一。预测化合物性质、生成满足特定项目需求的创新设计、解析蛋白质的三维结构重排,以及对数十亿化合物进行虚拟筛选,这些技术的进步极大地助力了药物研发。研究人员投入了大量资源开发相关工具,并主要依赖于开源软件和公开数据(如预训练模型)。研究人员深感感谢那些分享技术进展的作者和组织,并计划在未来通过开源的形式回馈药物发现社区。
有效使用这些工具需要实验科学家、AI 数据科学家、程序员,以及计算和药物化学家之间的紧密协作。这种投入不仅对维持技术创新前沿至关重要,还能使药物发现变得更高效、更经济,并造福我们的合作伙伴及社会。如果 AI/ML 能够在分子设计阶段准确预测新化合物的前临床和人体药代动力学特性,这将显著减少动物实验的需求。
研究人员总结了 AI 在药物化学项目中所产生的积极影响,并预计其应用将随着技术认知的提升而不断扩展。然而,由于种种原因,这些方法的普及程度仍不尽相同。例如,生成方法仍可能产生化学结构不稳定、合成不可行或缺乏创新性的化合物。与其他领域的 AI 类似,生成化合物设计虽然表现出色,但偶尔也会犯令人意外的错误。QSAR 长期存在的问题(如活性断崖和稀疏训练数据下的非加性现象)在 AI/ML 的时代仍未彻底解决。
研究人员认为“人机协作”(或更确切地说是“机器协作”)仍是最佳方法。然而,这种算法与主观决策的混合方式使得两者的相对贡献难以解耦。此外,如何通过组合方式最大程度减少人类和机器的偏见,仍是一个开放性问题。药物化学家对制作他们认为存在缺陷的化合物通常持抵触情绪,而 AI 生成的设计即便经过筛选、反馈和改进,仍有可能质量不足,需要进一步调整。这种技术驱动的设计模式虽然尚不完美,但无疑推动了进步。
未来仍有许多改进机会,例如构建更符合特定项目需求的潜在空间、增加生成工具中的三维组件使用、提高 AI 的可解释性,以及将合成路径直接嵌入生成设计中。这些改进将进一步促进非计算化学家对 AI 工具的接受度。最近,将物理学方法融入深度学习架构的尝试,使得在显著降低计算成本的同时,可以实现量子力学级别的精度来计算属性、优化分子几何和分析扭转角。
研究人员预计未来 AI 将在从化学文献中提取数据、预测蛋白-配体复合物的构象选择以及为药物化学提供基于大模型的虚拟助手等方面发挥重要作用。这并不是“AI 超越人类能力”的竞争问题,而是一种融合方式。正如 Derek Lowe 所言,“AI 不会终结药物化学家,但不会使用 AI 的药物化学家可能会被淘汰”。我们认为 AI 将成为一个强大的辅助工具,与化学语言、图像、3D 结构信息和组学数据相结合,为药物化学开启新的可能性。
微调模型(即一种更精细的迁移学习形式),通过引入特定和局部数据,逐步增强基础模型,将在药物化学领域发挥更大的作用。研究人员希望这些药物化学特化的基础模型能被具备数据、专业知识和计算能力的组织开发并开放共享,而能够快速生成和整合项目数据的组织将持续保持竞争优势。
本文基于我们在工业药物化学中的经验,提供了对 AI/ML 应用的现实展望。尽管研究人员对这一主题充满热情,但研究人员尽量摒弃过度炒作,带来一个务实的视角。技术本身的价值固然重要,但技术采纳的组织、沟通和文化因素同样至关重要。研究人员相信这种新的工作模式将在不久的将来为社会带来广泛的益处。
整理 | WJM
参考资料
Pitt, W.R., Bentley, J., Boldron, C., Colliandre, L., Esposito, C., Frush, E.H., Kopec, J., Labouille, S., Meneyrol, J., Pardoe, D.A. and Palazzesi, F., 2025. Real-World Applications and Experiences of AI/ML Deployment for Drug Discovery. Journal of Medicinal Chemistry.