类GPT化学语言模型,9秒生成100种化合物,微软AI药物设计平台登Nature子刊

学术   2024-11-30 17:01   北京  
来源:ScienceAI

本文约2000字,建议阅读5分钟

开辟创新新药物发现新路径。



以 ChatGPT 为代表的生成式 AI 技术正在彻底改变药物研发领域。生成式药物设计能够从零开始创建全新分子或化合物,而无需依赖于现有的模板或分子框架。


然而,生成的分子的实用性往往有限,因为许多设计都集中在一组狭窄的药物相关特性,无法提高后续药物发现过程的成功率。


为了克服这些挑战,微软研究院科学智能中心、中国科学技术大学和全球健康药物研发中心(GHDDI)的研究团队合作开发了 AI 药物设计平台 TamGen,这是一种采用类似 GPT 的化学语言模型方法。


TamGen 通过基于 Transformer 自注意力机制的生成式 AI 模型,实现了针对致病靶蛋白的分子精准生成、优化以及合成与生物实验验证,开辟了创新药物发现的新路径。


研究证明 TamGen 生成的化合物具有更好的分子质量和活性。将 TamGen 集成到药物发现流程中,确定了 14 种对结核杆菌 ClpP 蛋白酶表现出显著抑制活性的化合物。其中,最有效的化合物显示出半数最大抑制浓度(IC50)为 1.9 μM。


GHDDI 中心主任丁胜表示:「TamGen 的初步成果标志着生成式药物设计领域的一项重要创新,为未来的 AI 药物研发提供了强有力的实用性和适用性证据。随着人工智能技术在药物发现领域的持续进步,TamGen 有望加速新药研发,帮助应对包括结核病在内的多种公共卫生挑战。」


相关研究以「TamGen: drug design with target-aware molecule generation through a chemical language model」为题,于 10 月 29 日发布在《Nature Communications》上。


论文链接:
https://www.nature.com/articles/s41467-024-53632-4


生成式药物设计面临的挑战


设计对致病蛋白靶标具有高结合亲和力的化合物可以显著加快药物发现过程。基于靶标信息生成化合物的生成式 AI 方法不仅可以加快这一过程,还可以探索现有化合物库之外更大的化学空间。


然而,尽管 AI 生成了大量新型化合物,但现有方法在提供有效候选药物方面仍然面临挑战。


TamGem:类 GPT 的化学语言模型


为了应对生成式药物设计面临的挑战,微软与 GHDDI 联合开发了 TamGen。


其创新之处在于,在类 GPT 生成模型的基础上加入了交叉注意力机制,并通过学习大量的已知和模拟的蛋白-配体结构数据,使得模型在生成新的化学分子时,能够同时考虑致病靶蛋白的信息。


这一改进使 TamGen 能够基于靶蛋白活性位点信息精准生成具备潜在相互作用的分子,进而增强分子生成的靶向性以及药物设计的合理性与精准度,再结合分子模拟、细胞活性 AI 模型与专家经验进一步虚拟筛选与优化,从而大幅提升发现候选药物的效率与成功率。


GHDDI 数据科学平台负责人郭晋疆博士表示:「传统的生成式 AI 设计方法更像是先造出无数把钥匙,再一把一把地试能否打开门。而 TamGen 则像是在比对锁眼,更精确地匹配钥匙。」


图示:TamGen 模型架构。(来源:论文)


研究团队通过三个模块实现了 TamGen:(1) 化合物解码器,一种类似 GPT 的化学语言模型,也是 TamGen 的核心组件,为化学空间中的化合物生成奠定了基础;(2) 蛋白质编码器,一种基于 Transformer 的模型,用于编码靶标蛋白质的结合位点;(3) 用于化合物编码和细化的上下文编码器。


TamGen 生成药物设计高效且有效


为了对 TamGen 的整体性能进行基准测试,研究人员将其方法与最近提出的五种方法进行了比较:liGAN、3D-AR、Pocket2Mol、ResGen 和 TargetDiff。


图示:TamGen 在化合物生成方面性能最佳。(来源:论文)


结果显示,虽然每种方法在某些指标上都表现出优势,但 TamGen 始终名列前茅。例如,TamGen 在 6 个指标中的 5 个中排名第一或第二,并表现出最佳的整体性能。这一发现表明 TamGen 能够在生成过程中同时优化化合物的多个方面。


值得指出的是,对于具有高结合亲和力的化合物,TamGen 在 SAS 方面表现最佳,这些化合物可能对靶蛋白具有优异的生物活性。


图示:TamGen 在运行时间上明显优于其他方法。(来源:论文)


与其他方法相比,TamGen 的效率也最高。研究使用一台 A6000 GPU 对所有方法的每个靶标生成 100 种化合物的时间进行了基准测试。其他方法需要数十分钟或数小时才能完成此任务,而 TamGen 平均仅需 9 秒即可完成此任务。这使得 TamGen 比 ResGen、TargetDiff、Pocket2Mol 和 3D-AR 分别快 85、154、213 和 394 倍。


总的来说,TamGen 在生成新化合物方面既有效又高效。


发现 14 种对结核病有效的化合物


接下来,研究人员使用 TamGen 设计针对 ClpP 的小分子抑制剂。


结核病(TB)是由结核分枝杆菌 (Mtb) 引起的传染病。研究专注于酪蛋白水解蛋白酶 P (ClpP),它是细菌蛋白质降解系统中必需的丝氨酸蛋白酶,也是抗生素开发的新兴靶点。


图示:结核病药物生成的设计-改进-测试流程图。(来源:论文)


使用由 TamGen 驱动的设计-改进-测试流程来识别潜在的 ClpP 抑制剂。研究发现了 14 种对 Mtb ClpP 表现出良好效力的候选化合物,半数最大抑制浓度 (IC50) 范围为 1.88 μM 至 35.2 μM。


值得注意的是,TamGen 生成的化合物不仅丰富了进一步优化的候选池,而且还为命中扩展和构效关系 (SAR) 合成提供了有效的靶点。这些发现凸显了 TamGen 在靶标感知药物设计中的广泛适用性和巨大潜力。


未来展望


下一步,TamGen 的研究方向将集中在整合更多三维生成方法的优势,比如采用蒙特卡洛树搜索(MCTS)或分子动力学模拟技术,进一步改善生成化合物与靶蛋白结合能力及其他重要药物性质,如稳定性、合成可能性以及 ADME/T 特性。


参考内容:
https://mp.weixin.qq.com/s/ToKG6upzt3Gl-b29PNfPRg


编辑:于腾凯



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

数据派THU
清华大数据研究中心官方平台,发布团队科研、教学等最新动态及大数据领域的相关信息~
 最新文章