【佳作推荐】米兰大学G. Tiana等人JCIM论文：利用不变分子表征精准捕捉小分子与蛋白质的结合性能

学术科学 2024-09-25 08:59 上海

在药物研发中，准确预测小分子与蛋白口袋的结合至关重要。传统的评分方法（例如Autodock和Vina）基于经验数据和物理能量函数，然而这些方法存在一定局限性。随着机器学习技术的迅速发展，深度学习算法逐渐应用于药物设计领域。然而，这些算法通常需要大量实验数据进行训练，而当前可用的蛋白质-小分子结合数据集却相对有限。在有限数据的条件下，如何提高模型的泛化能力成为一大挑战。因此，提升小分子与蛋白质结合预测的精度和效率，依然是AIDD领域中的一个重要研究课题。

针对这一问题，米兰大学G. Tiana小组提出了一种普适且恒定的蛋白口袋与配体表征方法，该方法完全基于原子坐标构建，摒弃对口袋和配体间相互结合特性的依赖。他们利用这些基于原子坐标的表征来训练随机森林模型，实现对口袋和配体之间结合的有效分类。这类模型的表现在很大程度上弥补了训练样本不足造成的挑战，同时其泛化误差明显低于深度学习算法。该项研究成果近日发表在美国化学会出版的Journal of Chemical Information and Modeling期刊上【1】。

作者首先选择了三个高质量的蛋白质-配体结构数据集（DUD-E、MUV、PDBbind），用于构建一个包含546个精选口袋样本的蛋白口袋数据集和37806个配体的数据集。将每个数据集的80%作为训练集，剩余的20%作为测试集。接着，通过等变图自编码器来表征蛋白口袋和配体，在经过数百个训练周期后，均方误差（MSE）趋于一个较低且稳定的水平。对于蛋白质口袋和配体，均方误差（MSE）分别稳定在2 Å 和1 Å左右。此外，训练误差和验证误差的分布均呈现高度相似性（图1），表示自编码器没有过拟合输入数据集。通过以上结果，作者验证了基于自编码器的表征方法可以恢复蛋白口袋和配体原子结构的三维构象。然后使用随机森林算法，对配体是否能够与特定蛋白质口袋结合进行了分类。在DUD-E和MUV数据集上的测试中，展示了模型在DUD-E和MUV数据集上的预测性能。具体来说，该方法在DUD-E数据集上的AUC值为0.814，在MUV数据集上的AUC值为0.790，展现出良好的预测性能。

图1-在训练过程中配体和口袋的实际与预测距离之间的MSE（a）自动编码器被训练以重现分子结构的的距离图，随着每一轮的训练，预测的距离图不断改进; (b)训练集和验证集中口袋的MSE值的分布及相对平均值分布;(c)训练集和验证集中配体的MSE值及相对平均值的分布。

为了进一步验证编码矩阵是否能够与分子的三维结构保持近乎等距（isometric）的关系，即分子结构中的微小变化能否在编码矩阵中得到相应的体现，作者使用了分子动力学模拟方法做了蛋白质结合口袋的多种构象。使用自编码器为这些构象生成表示矩阵。通过Jensen-Shannon散度来比较这些矩阵，并探究了这些散度与分子构象的dRMSD之间的相关性。研究结果显示，随着箱数的增加，dRMSD与表示矩阵之间的相关性增强。在4个箱数时，相关系数达到了0.48（图2）。这一发现表明编码矩阵能够在近乎等距的方式下反映分子结构的变化。

图2-(a)以30个重原子展示的蛋白激酶纺锤体蛋白口袋（PDB：2FL2）;(b)分子动力学模拟中蛋白口袋的dRMSD变化与其表征矩阵M变化（由D_JS计算）的散点图;(c)基于自动编码器潜在向量构建矩阵M所选箱数bin对dRMSD和DJS之间相关性ρ的影响。

最后，作者以MUV数据集中的凝血因子XII蛋白酶的口袋（PDB entry：5EXM）作为测试案例，对MUV数据集中所有配体进行虚拟筛选。其目的是从这些配体中筛选出一小部分可能与该口袋结合的分子进行测试。在MUV数据集中，模型共筛选到1880个分子用于测试。通过在DUD-E数据集上预训练的随机森林分类模型，成功区分了活性配体和诱饵（decoy）。研究结果显示，预测为配体的分子与实验验证的配体的编码矩阵之间的Jensen-Shannon散度（DJS）显著低于诱饵分子。这表明预测的配体在其特征表征上更接近于已知的活性配体（图3）。这项筛选实验证明了编码矩阵和随机森林模型在识别潜在结合配体方面的有效性，为进一步实验验证提供了有价值的候选分子。

图3-凝血因子XI蛋白酶的配体筛选结果(a)模型筛选得到的小分子与晶体结构配体之间的DJS分布;(b)配体三乙酰-β-壳聚糖与蛋白口袋的结合模式;(c) 利用自编码器将每个配体表征为矩阵，并通过预训练的随机森林模型将其预测为活性（1）或非活性（0）。

小结： 本研究的亮点在于提出了一种基于不变分子结构表征的创新计算方法（https://github.com/guidotiana/Milbinding）。通过生成仅依赖原子坐标的编码矩阵，成功预测了小分子与蛋白质口袋的结合。这种方法结合了机器学习算法，展现出优于传统方法的泛化能力，在数据稀缺的情况下表现更为突出。该研究结果不仅为药物设计提供了新的工具，也为理解分子间相互作用奠定了基础。

参考文献

【1】Beccaria R, Lazzeri A, Tiana G. Predicting the Binding of Small Molecules to Proteins through Invariant Representation of the Molecular Structure. J Chem Inf Model. 2024, 64(17), 6758-6767.

ComputArt计算有乐趣

ComputArt由复旦药学院王任小研究员团队创建维护，旨在推送计算化学、分子模拟、药物设计等领域的新进展，提升大众对计算科学的关注。我们的口号是：科研有乐趣！计算有乐趣！欢迎国内外同行投稿，邮箱：wangrx@fudan.edu.cn

【原创】复旦大学药学院戚逸飞/王任小团队Chemical Science论文：设计蛋白-蛋白相互作用界面的深度学习模型

【官宣】PDBbind 2021版完全体诞生：蛋白-配体复合物精选集已上线

【佳作分享】美国得克萨斯大学秦天课题组Nature Reviews Chemistry综述：苯环的3D饱和生物电子等排体

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉