【VIP来稿】北生所黄牛课题组JCIM: 利用模板匹配方法构建高质量的蛋白-配体复合物结构模型数据集BindingNet

学术 2024-01-23 10:11 上海

“Content without method leads to fantasy; method without content to empty sophistry.”— Goethe

2024年热闹非凡的JPM大会已经结束，前几年锣鼓喧天的AI制药公司显得冷清了许多。AI加速新药发现提高新药研发成功率，是啤酒花还是泡沫，正在经历Hype Cycle低谷期的行业中人，可能对这个问题会有更深刻的认识。是AI本身不行吗？不是的，众所周知，AI在图像识别和生成领域非常成功。回顾其发展历程，会发现2009年是一个特别的年份，这一年ImageNet横空出世，"ImageNet改变了AI领域人们对数据集的认识，人们真正开始意识到它在研究中的地位，就像算法一样重要"，李飞飞教授说。如今大家意识到，在AI落地具体场景时，数据可能比算法更加重要。

AI加速新药发现的一个基石问题是，AI能否准确预测蛋白-配体结合亲和力？然而，现有的蛋白-配体复合物实验结构数量和类型非常有限，不足以用于训练有泛化能力的AI模型。而unfair datasets又让我们高估AI模型的预测能力，以至于在前瞻性的新药开发实践中失去作用。工欲善其事，必先利其器。Pat Walters甚至直接呼吁“As a field, we must reach a consensus on appropriate datasets and statistical tests for method comparisons”。类比ImageNet，AI制药领域需要构建数量足够、数据清晰、类型多样化的数据集，对于正确评估和优化提高AI模型具有重要意义。为此，北京生命科学研究所/清华大学生物医学交叉研究院的黄牛实验室利用模板匹配方法构建了一个包含69,816个高质量蛋白-配体复合物模型和相应的实验结合活性数据的BindingNet数据集，作为领域内最常用数据集PDBbind的补充。作者探索了利用BindingNet数据集进行结构活性关系（SAR）分析的潜在应用，研究了基于BindingNet训练的深度学习模型在预测蛋白-配体结合亲和力方面的性能。发现基于BindingNet训练的深度学习模型可以减轻由包埋的溶剂可及表面积（buried SASA）引起的偏见。 “不积跬步，无以至千里”，如何进一步完善BindingNet数据集，扩大其覆盖的化学空间和蛋白-配体对的种类将是下一步工作的重点。近日，该项研究工作发表在J. Chem. Inf. Model 的Machine Learning in Bio-cheminformatics专刊中【1】。

BindingNet的构建方式：

·1. 以PDBbind v2019数据集中的小分子配体为模板，从ChEMBL数据库中搜寻与其同一靶标的结构类似的系列活性分子（相似度大于70%），共找到5907个PDBbind模板结构作为候选的匹配对象。

·2. 利用最大公共子结构（MCS）模板匹配的方式构建初始的复合物结构，并通过对非公共部分的构象搜索和配体分子结合构象的MM/GB-SA优化和打分，来保证复合物结构模型的可靠性，共生成合格的高质量蛋白-配体复合物结构模型69,816套。

SAR分析和活性悬崖分子对数据：

利用这种方式构建的BindingNet包含了丰富的结构活性关系（SAR）信息，即同一蛋白靶标与不同小分子的结合构象和活性的变化。其中还包含了许多活性悬崖分子对（MMP-cliffs），即结构变化微小但活性差异显著的分子对，这些分子对有助于理解蛋白-配体相互作用的关键因素。例如，通过分析BindingNet提供的CDK2-抑制剂复合物的模型，可以合理地解释活性变化的具体原因，如在R2位点引入F原子会增加其与Asn132羰基氧之间的静电排斥，导致活性下降近100倍。为了方便用户查询、分析和下载BindingNet数据集，作者提供了免费公开的网站http://bindingnet.huanglab.org.cn

机器学习模型开发和评估：

BindingNet数据集可用于开发和评估机器学习模型，预测蛋白质-配体复合物结合活性、结合位置以及分子生成等任务。在蛋白-配体相互作用预测方面， PDBbind是最常用的训练集。但有研究指出PDBbind作为训练集存在的一些问题，如数据量不足、过于稀疏等【2】。此外，该研究小组还曾报道，由PDBbind训练的机器学习模型对包埋溶剂可及表面积（buried SASA）存在一定的偏见，即buried SASA 越大，模型预测的蛋白-小分子结合活性越好【3】。由于BindingNet包含大量结构相似，但结合活性差异显著的小分子，作者推测基于BindingNet训练的机器学习模型能减轻先前在PDBbind训练的模型中发现的buried SASA偏见。因此在PDBbind_hold_out_2019 set上进行测试，发现基于BindingNet_v18训练的模型确实比基于PDBbind_v18_subset训练的模型表现差，且PDBbind_v18_subset的复合物模型预测的结合活性与buried SASA相关性更好，Rp达到了0.623。进一步的分析发现训练集PDBbind_v18_subset和测试集PDBbind_hold_out_2019数据集中的复合物结合活性与buried SASA本身就具有一定的相关性，而 BindingNet_v18数据集中该相关性更弱。作者统计了PDBbind_subset和BindingNet中每个蛋白家族内的Rp(SASA,pAffi)，证实了BindingNet数据集中的Rp(SASA,pAffi)明显低于PDBbind_subset。

总结与展望：

综上所述，利用配体模板匹配的方法扩充PDBbind数据集，是个在实验结构数据稀疏的情况下的可行方案。BindingNet可以为药物化学家在系列类似物的晶体结构尚未确定的情况下，在原子水平上研究蛋白-配体相互作用提供有益的见解。作者发现基于BindingNet训练的机器学习模型可以减轻先前在PDBbind上发现的buried SASA偏见，这得益于BindingNet规模更大且包含了大量的buried SASA相似但结合活性不同的复合物结构数据。BindingNet数据集也可用于开发和评估结合位置预测、配体结合自由能计算和活性悬崖预测等方法。作者提出还需要进一步努力来完善BindingNet数据集的构建，以扩大其覆盖的化学空间和蛋白-配体对的种类。可以考虑整合多种方法，如分子对接和基于机器学习的方法，来预测不同靶标的蛋白-配体复合物的结合位置和增加小分子多样性。为了扩大覆盖范围，还可以考虑包括不同的生物活性数据库，如BindingDB和Binding MOAD，以及PDBbind未收录的复合物实验结构。在AI制药领域构建出行业认可和适用的“ImageNet”，BindingNet只是一个起点，但希望也能成为AI制药进入Hype Cycle另一个阶段的起点。

参考文献

【1】Li, X.; Shen, C.; Zhu, H.; Yang, Y.; Wang, Q.; Yang, J.*; Huang, N*. A High-Quality Data Set of Protein–Ligand Binding Interactions Via Comparative Complex Structure Modeling. J. Chem. Inf. Model. 2024. https://doi.org/10.1021/acs.jcim.3c01170.

【2】Yang, J.; Shen, C.; Huang, N*. Predicting or Pretending: Artificial Intelligence for Protein-Ligand Interactions Lack of Sufficiently Large and Unbiased Datasets. Front. Pharmacol. 2020, 11, 69. https://doi.org/10.3389/fphar.2020.00069.

【3】Zhu, H.; Yang, J.*; Huang, N*. Assessment of the Generalization Abilities of Machine-Learning Scoring Functions for Structure-Based Virtual Screening. J. Chem. Inf. Model. 2022, 62 (22), 5485–5502. https://doi.org/10.1021/acs.jcim.2c01149.

http://mp.weixin.qq.com/s?__biz=MzUyMDc1MDA2OA==&mid=2247487586&idx=1&sn=0e7cd2ab774fd8c90823c09a5cffecd3

ComputArt计算有乐趣

ComputArt由复旦药学院王任小研究员团队创建维护，旨在推送计算化学、分子模拟、药物设计等领域的新进展，提升大众对计算科学的关注。我们的口号是：科研有乐趣！计算有乐趣！欢迎国内外同行投稿，邮箱：wangrx@fudan.edu.cn

【官宣】PDBbind 2021版完全体诞生：蛋白-配体复合物精选集已上线

【佳作分享】美国得克萨斯大学秦天课题组Nature Reviews Chemistry综述：苯环的3D饱和生物电子等排体

【COMET】中药机理研究“利器”

报名即将截止！复旦大学药学院团队携AlphaFold3全新课程手把手教您药物设计

优惠即将截止！复旦大学药学院团队携AlphaFold3全新课程手把手教您药物设计

【官宣】喜大普奔：PDBbind数据库终于又双叒叕更新啦

【VIP来稿】协和药学AI药物设计团队JCIM论文：AutoMolDesigner-利用人工智能技术实现小分子抗菌药物自动设计

【VIP来稿】北生所黄牛课题组JCIM: 利用模板匹配方法构建高质量的蛋白-配体复合物结构模型数据集BindingNet

【佳作分享】Vividion Therapeutics公司JMC综述：药物发现中的”魔法氯效应”

【佳作分享】哈佛大学Robert M.Nature论文：不可成药靶点新发现——PTPN2/PTPN1抑制剂口服药增强免疫治疗效果

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉