J. Med. Chem. | CarsiDock-Flex: 几何深度学习引导的“两步式”柔性对接方法

学术 2025-01-12 00:02 韩国

DRUGAI

本文介绍一篇由浙江大学侯廷军教授/谢昌谕教授团队联合碳硅智慧于近期在Journal of Medicinal Chemistry上发表的文章“Improving the Reliability of Language Model-Predicted Structures as Docking Targets through Geometric Graph Learning”。该文提出了一种“两步式”柔性对接策略CarsiDock-Flex，可以直接从ESMFold预测得到的蛋白结构以及配体小分子的二维结构出发预测配体的结合构象。该方法首先构建了一个基于等变图神经网络的蛋白口袋诱导模型CarsiInduce, 可在特定配体诱导下对ESMFold预测的蛋白口袋的局部残基进行优化；随后通过碳硅智慧自主研发的AI对接方法CarsiDock将配体重新对接回诱导后的口袋中，进而实现配体构象的准确预测。实验结果表明，CarsiInduce可针对特定配体对ESMFold预测口袋进行有效诱导，进而明显提升CarsiDock在缺少复合物晶体结构的场景中的对接精度。整体而言，该方法为柔性对接程序的开发提供了一种新思路，有望为蛋白-配体相互作用更深层次的理解以及配体与蛋白的柔性建模提供一种高效且可靠的新工具。

研究背景

以AlphaFold2、RoseTTAFold和ESMFold为代表的基于AI的蛋白质结构预测方法已被广泛引入到生物医药领域之中，但它们在多数情况下仅能预测得到蛋白的apo构象，却难以考虑不同配体的结合对蛋白构象变化的影响，因此它们预测出的结果通常与有配体结合的holo构象相去甚远。此外，早期的蛋白质结构预测方法无法直接预测蛋白-配体复合物的三维结构，依然需要依赖分子对接等基于结构的药物设计方法来进一步阐明配体与靶标蛋白之间的相互作用。

传统分子对接方法往往依靠构象搜索算法来对结合构象进行采样，然后采用打分函数来量化各个构象与靶标之间的相互作用，得分最高的构象通常被认为是最合理的结合构象。尽管分子对接已在药物设计和发现中发挥了重要作用，但鉴于传统构象搜索算法在收敛能力以及传统打分函数在预测精度方面的局限性，其可靠性仍待改进。另一方面，目前主流对接方法通常采用半柔性对接的形式，即将蛋白视为刚性，仅对配体构象进行搜索。这种简化方式可显著节省计算资源，却无法模拟不同配体结合所引起的蛋白口袋残基的潜在动态变化，尤其当我们仅能通过蛋白质结构预测方法来获取蛋白三维结构的情况下。由此可见，如何在兼顾蛋白柔性的情况下准确预测配体的结合模式依然是领域的一大挑战。

近年来，AI技术的不断发展为配体结合构象的预测带来了新思路。在该研究中，作者首先提出了一个基于几何深度学习的蛋白结合位点诱导模型CarsiInduce，以提升ESMFold预测的蛋白结构作为对接模板的可靠性。随后，作者进一步提出了一个“两步式”柔性对接方法CarsiDock-Flex，即首先通过CarsiInduce将ESMFold预测的蛋白口袋诱导成与相应配体匹配的holo构象，随后采用CarsiDock将配体重新对接回诱导后的口袋中，进而实现配体结合构象的预测。多个测试场景中的出色表现也展示出CarsiDock-Flex在蛋白与配体柔性建模中的巨大潜力，有望为蛋白-配体相互作用更深层次的理解提供新见解。

模型架构

CarsiDock-Flex整体流程可如图1A所示，其中CarsiInduce可视为一个诱导契合的过程，蛋白和配体构象被逐步调整以达到最佳匹配，进而生成最适合特定配体的诱导口袋，而CarsiDock的重对接则模拟一个构象选择的过程，以在最优蛋白构象基础上进一步对配体构象的位置和朝向进行优化。CarsiDock-Flex可以称得上是诱导契合和构象选择理论的有机结合。

CarsiInduce的构建流程可如图1B所示，其主要包含三个模块：一个用于获取蛋白-配体异构图的初始表示的嵌入模块，一个用于对配体和蛋白的节点表示进行更新的编码模块，以及一个对配体和蛋白的最终坐标进行更新的预测模块，并通过构建一个简单且有效的回归模型来对残基的平移旋转以及配体的原子移动进行更新。CarsiDock则是一个AI驱动的对接方法，其首先通过构建深度学习模型来预测蛋白-配体之间的原子距离矩阵，随后通过对配体构象的平移、旋转、二面角参数进行更新来讲距离矩阵重构为最终结合构象。

图1 CarsiDock-Flex的整体概览及CarsiInduce的模型架构示意图

结果与讨论

CaisiInduce对ESMFold预测蛋白口袋的诱导效应

作者首先在他们自行构建的PoseBusters-ESMFold测试集上评估了CaisiInduce对ESMFold预测的蛋白口袋的诱导能力。如表1所示， 71.97%的EMSFold预测的蛋白口袋与晶体结构的RMSD值在2.0 Å以内，所有测试样本的平均RMSD值为1.793Å；而经过CarsiInduce诱导后，其相应指标提升为80.81%和1.569 Å。此外，当测试集样本的序列与训练集样本的一致性低于35%时，CaisiInduce依然能够表现出对ESMFold的诱导效应（成功率为68.03% vs 72.79%）。

表1. CarsiInduce对ESMFold预测蛋白口袋的诱导效应

CarsiDock-Flex在以ESMFold预测蛋白口袋为模板时的对接精度

作者随后测试了CarsiDock-Flex在以ESMFold预测蛋白口袋为模板时的对接精度，并与11种常用传统对接程序以及9种较新的AI对接方法作比较。如表2和图2所示，直接从ESMFold输出的蛋白结构并不完全适合用于阐明配体与蛋白之间的相互作用，大多数对接方法在大部分测试样本中均无法得到令人满意的对接构象。尽管如此，当RMSD阈值分别设为2.5 Å和5.0 Å时，CarsiDock-Flex可分别取得56.57%和82.58%的top1对接成功率，且所有样本的平均RMSD值为3.024 Å，要明显优于CarsiDock（相应指标为50.25%、78.79%和3.270 Å）及其他测试方法。

表2. 不同对接方法在PoseBusters-ESMFold测试集上的对接精度比较

图2.不同对接方法在PoseBusters-ESMFold测试集上的对接精度比较。A. RMSD值的累积分布曲线；B. 所有样本的平均RMSD情况。

同样，作者还分析了训练集和测试集蛋白的序列一致性对对接精度的影响。如图3所示，CarsiDock及一些传统方法对蛋白相似性并不那么敏感，其性能的波动可能主要来自蛋白本身的差异。然而，CarsiDock-Flex的成功率明显下降，特别是当以2.5 Å 作为RMSD阈值时的top1成功率。尽管如此，CarsiDock-flex在低相似度样本中依然表现出相比于CarsiDock及其他方法的优势，这也表明其具有较优的泛化能力。

图3. 训练集和测试集样本的序列一致性对不同对接方法对接精度的影响。A. RMSD阈值为2.5 Å时的top1成功率；B. RMSD阈值为5.0 Å时的top1成功率；C. 所有样本的平均RMSD情况。

而与AF3、RFAA、UMol、NeuralPLexer3等新近报道的蛋白共折叠方法相比，CarsiDock-Flex也表现出一定的竞争力。在PoseBuster基准集的428个复合物样本中，根据Umol论文中的数据，Umol、NeuralPlexer和RFAA在RMSD阈值设为2.0 Å下的成功率分别为18%、24%和41%，而加入口袋信息（Umol-pocket）可以将Umol的成功率提升至42%；当然AF3性能最为突出，其在盲对接和指定口袋对接的情况下可分别取得76.4%和90.2%的成功率。倘若已知口袋信息，在ESMFold的帮助下，CarsiDock-Flex也能够从序列出发直接预测复合物结构。即使将未被ESMFold成功预测的复合物均认为是失败的案例，CarsiDock-Flex依然可取得44.4%的成功率，虽然明显低于AF3，但与其他方法相比仍具竞争力。

此外，该研究还探索了CarsiInduce的诱导效应对CarsiDock-Flex对接精度的影响、以及CarsiInduce中引入的预训练策略对诱导效应和对接精度的影响，并展示了一些CarsiDock-Flex的应用案例等。更详细的内容可以阅读原文章。

总结

该工作提出了一个基于几何深度学习的蛋白口袋诱导模型，通过将ESMFold预测构象诱导为与特定配体结合的holo构象来提升其作为对接模板的可靠性。通过与CarsiDock进行整合，即使是在与训练集样本序列相似度较低的蛋白上，该模型依然可以取得较优的性能。作者进一步探索了诱导效应与对接精度的关系、以及预训练策略对预测性能的影响。结果表明，该方法更适用于那些配体结合将会引起较大口袋构象变化的靶标，且将百万级对接复合物用于模型预训练可显著提升模型性能。最后，作者也通过一些案例分析进一步验证了方法的适用性。总而言之，虽然以AF3为代表的共折叠方法在一定程度上已颠覆小分子配体结合构象预测领域，但该工作提出的“两步式”柔性对接策略有望为开发考虑兼顾蛋白柔性的AI对接方法提供有价值的见解。

参考资料

Shen, C., Han, X., Cai, H. et al. Improving the Reliability of Language Model-Predicted Structures as Docking Targets through Geometric Graph Learning. J Med Chem (2025).

https://doi.org/10.1021/acs.jmedchem.4c02740.

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Nat. Commun. | 推理速度提升89倍！肽段测序π-PrimeNovo适用于宏蛋白质组学大规模应用

Nat. Commun. | 中南大学研究团队提出基于电子构型的堆叠模型，推动新材料稳定性可靠预测

Nat. Biotechnol. | 利用量子-经典混合模型，设计新型KRAS抑制剂

15位行业知名专家讲授！蛋白质的AI设计在线学习课程上新！

澳门理工大学刘焕香教授课题组招收人工智能药物发现专业博士生（2025年9月入学）

Nat. Mach. Intell. | 蛋白质表征学习新方法！利用祖先序列重建生成功能性蛋白供PLM训练

Nat. Biomed. Eng. | 癌症数据深度降维，DeepProfile捕捉关键基因与特异性通路

聚焦2025 JPM，解锁医药研发新机会（附200+报告PPT下载）

Science | ESM3: 借助语言模型再现蛋白质5亿年的进化奇迹

Nature | 诺奖得主Baker团队利用AI设计蛋白质，中和致命眼镜蛇毒素

Nature | 微软MatterGen：生成式人工智能引领材料设计新范式

Nature | 将分子打碎，快速地进行高通量筛选

来鲁华组发展了基于多模态深度学习框架预测功能性磷酸化位点及其调控类型的方法MMFuncPhos

上海交通大学医学院人工智能蛋白质设计课题组诚聘助理研究员、博士后、客座学生！

罗氏｜LAB IN A LOOP：利用数据和人工智能改变药物发现和开发

通知丨2025人工智能与生物医药生态大会将于6月在上海召开

多组分反应的计算机辅助设计与发现

Nat. Comput. Sci. | Bruno Correia团队提出等变扩散模型DiffSBDD

李祥春团队Patterns：Reformer深度学习工具推动RNA结合蛋白研究新突破 | CellPress对话科学家

J. Med. Chem. | 人工智能/机器学习在药物发现中的实际应用与实践经验

Sci. Data | 非肽类大环化合物渗透性数据库

Nat. Mach. Intell. | 基准数据集的泛化评估不真实？哈佛医学院提出SPECTRA

Nat. Commun. | 快速生成晶体结构，雷丁大学采用GPT架构生成CIF文件

J. Med. Chem. | CarsiDock-Flex: 几何深度学习引导的“两步式”柔性对接方法

英矽智能与美纳里尼二次合作，5.5亿美元对外授权AI辅助发现的临床前抗肿瘤管线

Nat. Biotechnol. | 深度学习赋能脂质纳米颗粒设计，实现高效肺部基因递送

mLife | 人工智能破解酶稳定性定向进化中的多个突变位点高效重组问题

浙大/华为团队: 3DSMILES-GPT:基于词元化语言模型的3D分子生成

AI药物专利解析平台PatSight获大湾区数据应用大赛专项大奖

Nat. Commun. | 整合增强癌症依赖图谱，MOSA揭示癌症耐药机制

Nat. Comput. Sci. | 可扩展！更快！更便宜！大规模基因组数据存储新结构

Nat. Commun. | 为多组学数据设计的生成模型，multiDGD表现卓越性能

Nat. Protoc. | 麻省理工-哈佛博德研究所开发针对小分子的可解释深度学习平台

Nat. Methods | 细胞成像领域，回望Cell Painting的前十年

北大陈语谦团队: 人工智能+中医药组合拳 🥊 打通链路 🤺 赋能转化

Nat. Mach. Intell. | 基于集成学习与prompt增强，DeepNano提升纳米抗体-抗原相互作用性能

Nat. Commun. | 理解RNA序列、结构与功能关系，IGI构建最新数据库进行分析

Chem. Sci. | SynAsk：首个可公开访问的特定化学领域大语言模型

PNAS | 李洪林/李英贤团队发现老药坦索罗辛具有抗骨质疏松新作用

Science | Baker团队使用Diffusion设计出高亲和力、高特异性的拮抗剂与激动剂

Nat. Methods | 用AI解读DNA，InstaDeep和英伟达联合推出DNA序列预训练模型

诺奖级成果实操培训班！《AlphaFold3：从原理到安装和使用》即将上线！

DrugChat：多模态大语言模型实现药物机制与属性的全方位预测

Angew. Chem. Int. Ed. | 麻省理工学院融合大语言模型推进电化学反应探索

Nat. Biomed. Eng. | 多模态人工智能系统助力乳腺癌精准诊断

J. Am. Chem. Soc. | UCBShift 2.0！能够预测蛋白质侧链的化学位移

Bioinform. | DeepDR：用于药物反应预测的深度学习库

Nat. Commun. | Interformer：通过相互作用感知进行蛋白质-配体对接亲和力预测

J. Chem. Theory Comput. | 里程碑模拟在药物-靶点动力学中的进展与挑战

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉