DRUGAI
2024年对于计算科学来说是激动人心的一年,物理学诺贝尔奖授予了“人工神经网络”的研究,化学诺贝尔奖则因“蛋白质结构预测与设计”而颁发。鉴于计算机辅助药物设计(CADD)和人工智能驱动的药物发现(AIDD)的快速进展,撰写一份总结它们现状及未来方向的文件将对《药物化学杂志》的读者十分及时且具有参考价值。本文旨在重点介绍这些领域的最新进展、关键挑战以及它们之间的潜在协同作用,以促进当前文献和科学博客中的相关讨论。
近年来,计算机辅助药物设计(CADD)和人工智能驱动的药物发现(AIDD)取得了显著进展。这些领域利用基于物理的计算方法和机器学习来提高药物设计的效率和速度,旨在彻底改变新治疗药物的发现和优化方式。自第一个分子对接软件DOCK发布以来,CADD已经取得了相当大的发展,包括小分子和大分子在内的力场开发和构象采样方法得到了改善。新的分子对接和打分算法改进了配体-受体相互作用的预测,提升了虚拟筛选中的命中率。药效团建模与定量构效关系(QSAR)方法的整合使预测模型更加稳健。像Schrödinger、Molecular Operating Environment (MOE) 和 OpenEye Scientific等平台提升了用户界面和计算速度,通过云计算和交互模式使非计算化学专家的研究人员也能轻松使用。基于结构的虚拟筛选已经成为早期药物发现中识别起始化学类型的“最先进”工具。随着“按需制造”化学库的不断扩展,未来几年内将有可能在数周内对多达一万亿个化合物进行虚拟筛选,这为新型命中骨架的探索提供了前所未有的机会。
此外,通过深度学习实现的精确蛋白质结构预测将越来越多地助力虚拟筛选在新生物靶点中的成功应用,而仅通过机器学习发现配体往往难以成功,因为这些靶点的化学信息较为稀缺。在过去五年中,覆盖广泛化学空间的化合物库的虚拟筛选得到了广泛应用。Lyu等人对138百万个化合物进行了多巴胺D4受体对接,并对99百万个化合物进行了AmpC β-内酰胺酶对接,发现了两种靶点的多样性新型命中。Gorgulla等人对13亿个化合物进行了KEAP1氧化还原传感器的对接,并通过表面等离子共振(SPR)确认了12%的结合率。Sadybekov等人提出了一种“虚拟合成子分层枚举筛选”(V-SYNTHES)方法,对代表库合成可用所有骨架的片段化合物进行了对接计算。Recursion公司成功虚拟筛选了约15,000种人类蛋白,包含超过80,000个潜在结合口袋,使用Enamine REAL Space进行筛选。
与此同时,依赖于对接的传统建模推动了更准确的基于物理的预测方法的发展,如自由能微扰(FEP)和热力学积分(TI)。近年来,亲和力自由能(RBFE)计算在蛋白酶、激酶和GPCR等多种靶点的领先化合物优化中得到了广泛验证。增强采样分子动力学方法已被开发用来检测隐性口袋并预测配体结合动力学,这是一个与体内疗效相关的重要参数。得益于计算方法的进步、高性能计算和GPU加速模拟的可用性,成功应用CADD流程已促成了一些临床候选药物的发现。Nimbus与Schrödinger合作,采用基于结构的药物设计策略,推动了可能是最佳TYK2抑制剂的发现。Morphic Therapeutic利用“数字化学” - FEP设计了一种新型的小分子α4β7整合素抑制剂。Relay Therapeutics进行了长时间的MD模拟,设计出选择性且共价结合FGFR2中“P环”Cys残基的正向结合剂。
在过去十年中,随着机器学习和深度学习在药物发现中的应用兴起,人工智能驱动的药物发现(AIDD)迅速发展。值得注意的是,术语“AIDD”在文献、公开演讲和媒体中频繁出现。然而,为了更好地理解这两个领域在药物发现项目中的最佳应用领域,了解CADD和AIDD之间的根本区别至关重要。AIDD利用来自公共或专有数据存储库的大规模数据集,通过模式识别和预训练的机器学习模型实现新的预测。谷歌DeepMind的AlphaFold平台对全蛋白组的三维结构预测是AIDD的革命性贡献,它使基于结构的虚拟配体发现在规模上远远超越实验结构。而生成模型的发展和应用,如变分自编码器(VAE)、生成对抗网络(GAN)、化学语言模型、强化学习、Transformer模型以及扩散模型,使得能够根据训练集进行学习并生成具有期望生物和物理化学性质的分子结构,这些分子结构作为实验验证的假设被提出。
像MOSES和GuacaMol这样的基准数据集已经发布,用于比较和验证生成模型。2019年,来自Insilico Medicine的研究人员发表了一篇开创性论文,描述了利用深度生成张量强化学习模型(GENTRL)在仅21天内成功发现DDR1抑制剂的突破性进展。Insilico Medicine的AI靶点发现引擎平台“PandaOmics”提出了TNIK作为特发性肺纤维化(IPF)的新靶点。通过该公司的生成化学工具“Chemistry42”,新型结构生成和药物化学工作最终发现并开发了INS018_055,该药物目前正在进行II期临床试验。
尽管在过去十年里,十多家AI初创公司和生物技术公司参与了这场AI竞赛,但我们也看到了来自AI公司的部分候选药物的“退潮”。例如,Exscientia-21546作为一种高度有效且选择性的A2AR拮抗剂,其I/II期研究未能进一步推进;BenevolentAI也在II期试验后终止了其泛Trk抑制剂BEN-2293的开发。自2012年以来,AI和生物技术公司的合作不断增加,特别是在大药企与专注于AI的生物技术公司之间的重大合作关系中显而易见。毫无疑问,AIDD已经成为制药行业的主流。然而,在“AI制造”药物进入市场之前,仍有几个问题亟待解决:首先,是否能够获得高质量的数据供AI模型学习有意义的模式并据此做出预测?其次,AI是否真的能够理解足够复杂的生物学?这直接关系到AI能否发现真正的新靶点这一有争议的问题。最后,生成化学是否能够在训练空间之外设计出具有活性的分子?基于蛋白质结合口袋的分子生成有可能解决以配体为训练集的分子生成模型中的局限性。
尽管CADD和AIDD取得了令人瞩目的进展和成功案例,但两者仍面临挑战。需要开发适合学术界和初创生物技术公司的经济方法,以从超大规模筛选活动中对虚拟筛选命中物进行优先排序,从而以更高的精度预测和优先考虑虚拟命中物。最近,Wu等人提出了处理溶剂化项和GBMV方法,以消除虚拟筛选中的“作弊分子”。我们预计,其他能够解决这一领域中空白的方法也将随之而来。CADD和AIDD已经在为通常适合计算方法的靶点(例如具有高质量结构、良好药靶性、已被广泛研究的生物学以及可用的训练集分子)交付新分子(如FIC或BIC)方面得到了展示。然而,当几乎没有关于靶点的信息——即高度新颖的靶点时,应用机器学习进行命中发现、命中到先导化合物以及先导优化的适用性和成功率仍然是个谜。这正是涉及传统小分子抑制剂之外的药物发现计划的情况。
例如,尽管该领域正在取得进展,但RNA的三维结构预测仍然是一个重大挑战。虽然AlphaFold3在蛋白质预测方面显示出了突破性的性能,但由于蛋白质和RNA的根本差异,以及作为训练集的稀缺结构数据,RNA的精确结构预测依然困难。事实上,鉴于RNA的特性,靶向RNA的小分子可能难以实现,因为RNA高度极性且动态特征明显。适合小分子RNA对接的打分函数尚待改进。在过去五年中,分子胶,包括双功能分子(PROTACs)和单价降解剂(内在降解剂),在小分子药物发现中引起了越来越多的关注。Cherkasov小组开发了一种整合的3D建模和深度学习计算流程,用于PROTACs的自动化设计。Monte Rosa公司开发了名为fAIceit的AI算法,这是一种超快速引擎,能够扫描数千种蛋白质,识别出具有“降解子”结构特征的蛋白质,使其能够被E3连接酶识别并降解。未来,生成性AI是否能够交付有前景的靶向RNA和分子胶的小分子,仍有待观察。
展望未来,CADD和AIDD的前景广阔,未来可能会专注于将基于物理的方法与AIDD技术互补,以发挥两者的优势,同时缓解这些计算方法带来的局限性。值得注意的是,2013年诺贝尔化学奖授予了Martin Karplus、Michael Levitt和Arieh Warshel,以表彰他们在复杂化学系统多尺度模型开发方面的贡献。今年,作为AI之父的Geoffrey Hinton与John Hopfield共同因其在人工神经网络领域的工作荣获2024年诺贝尔物理学奖。同时,2024年诺贝尔化学奖授予了David Baker、Demis Hassabis和John Jumper,表彰他们在蛋白质设计与复杂蛋白质结构预测方面的贡献。对于科学领域的AI来说,这无疑是辉煌的一年!在未来几年,我们将见证CADD和AIDD的“匹配”,为加速药物发现和开发提供前所未有的机会。随着技术的不断进步,这些计算工具与传统研究范式的整合,必将有望改变制药领域。持续的研究投资、合作以及解决现有挑战,将是充分释放计算方法在小分子药物发现潜力的关键。
参考资料
Current Status of Computational Approaches for Small Molecule Drug Discovery
Weijun Xu
Journal of Medicinal Chemistry Article ASAP
DOI: 10.1021/acs.jmedchem.4c02462