【佳作推荐】洛桑联邦理工学院Matteo小组Nature Commun论文：具备上下文感知能力的几何深度学习模型用于蛋白序列设计

学术 2024-10-28 08:55 上海

随着蛋白质设计技术的快速发展，传统的物理建模方法虽然在一定程度上推动了蛋白质工程的发展，但仍然存在一些局限性。相比之下，深度学习技术凭借其出色的预测能力，显著提高了蛋白质设计的速度和成功率。然而，目前的大多数蛋白质设计模型在处理非蛋白质实体时表现仍然较差，限制了其在实际应用中的适应性。

为了解决这一问题，由洛桑联邦理工学院（EPFL）和瑞士生物信息学研究所的Matteo教授研究团队开发了CARBonAra，这是一种基于几何Transformer的新型深度学习方法，能够解析蛋白质骨架原子坐标和元素类型，具备上下文感知能力，能够在复杂的分子环境中高效预测蛋白质的氨基酸序列并对序列预测进行优化。最终，实验证明这一模型可以以高成功率生成高热稳定性、具有催化活性的酶序列。近日，该项工作以“Context-aware geometric deep learning for protein sequence design”为题发表在Nature Communications期刊上【1】。

1.模型概述

几何深度学习是一种用于处理复杂几何结构数据的深度学习方法，特别适合于如蛋白质等分子三维结构的分析。与传统的神经网络不同，几何深度学习通过利用几何信息来处理不规则的数据结构，如点云、图形等。在蛋白质设计中，它通过操作原子坐标和几何关系，如距离和向量，从而预测蛋白质的序列和结构。

在此基础上，该研究团队提出了基于原子点云的几何深度学习模型CARBonAra。该模型通过解析蛋白质骨架来预测氨基酸序列，利用几何Transformer网络处理局部和全局结构信息。其特点在于可以处理各种分子间的相互作用，包括蛋白质、核酸、小分子、脂类等。这种灵活性使得CARBonAra模型能够在更广泛的蛋白质设计任务中发挥作用。

在模型设计方面，CARBonAra通过逐步处理局部邻域（从8个到64个最近邻）来编码原子间相互作用的信息，并更新每个原子的状态（图1.a）。这种处理方式使模型能逐渐从短距离上下文信息，逐步学习到中长距离的上下文信息。最终，模型将原子状态汇聚到残基水平，预测每个氨基酸的置信度。这种方法提高了模型的计算效率，使其更易于适应多种设计场景。

2.模型的训练数据

CARBonAra的训练数据来自PDB，包含约37万个结构数据，这些数据涵盖了蛋白质与多种分子的复合物，如离子、核酸、小分子和脂类等。在训练过程中，模型只使用蛋白质骨架的原子坐标，并通过添加虚拟Cβ原子来优化几何描述。数据集构造时确保测试数据集不包含与训练集相同的域结构，并且不包含CATH中的任何数据，还过滤掉了相似性超过30%的序列，从而保证了模型的泛化能力。

3.模型性能评估

CARBonAra在多个蛋白质设计任务的评估中表现出色，与现有最先进的方法（如ProteinMPNN和ESM-IF1）相比，序列恢复率相当，且计算速度更快（图1.b, c）。

图1. CARBonAra的模型结构、其结果与最先进方法的比较。a 该模型将多层几何Transformer应用于骨架支架的坐标和原子元素，并添加虚拟Cβ原子，以预测序列中每个位置的氨基酸置信度，以特定位置的评分矩阵表示。b 不同方法对单体和二聚体序列恢复率的比较，显示中位序列恢复率。c 在单序列模式下，使用不同方法预测序列，AlphaFold预测结构高于不同TM分数阈值的占比。

此外，实验验证表明，CARBonAra在β-内酰胺酶（TEM-1）的工程设计中成功设计出了一系列高热稳定性酶变体，这些变体在70℃下仍然保持了酶活性，表现出较好的热稳定性（图2）。

图2. 野生型TEM-1内酰胺酶和模型设计的内酰胺酶（D1-D4）在不同温度下水解硝基烯烃时的催化活性。

得益于模型逐步处理局部邻域（从8个到64个最近邻）来编码原子间相互作用的信息，CARBonAra的另一个显著优势在于其上下文感知功能，即能够根据具体的分子环境进行序列预测。在蛋白质与其他分子（如DNA或离子）相互作用的情况下，该模型的序列恢复率显著提高。例如，在一个锌依赖的DNA内切酶的测试中，加入锌离子和DNA的结构信息后，序列恢复率从29%提升至52%，图3显示了锌离子的存在对周围氨基酸的预测结果产生较大影响。这表明在分子环境中添加非蛋白质因素可以提升这一模型序列预测的准确性和可靠性。

图3. 离子存在对模型预测结果的影响。A含有两个锌离子的催化口袋（PDB ID: 3LVZ）的BJP−1金属β-内酰胺酶结构。B 不含锌离子时催化口袋的AlphaFold预测结构。C 含有锌离子时催化口袋的AlphaFold预测结构。

4. 总结

CARBonAra模型通过结合几何深度学习和上下文感知技术，能够快速准确地预测蛋白质序列，并为定制功能复杂的蛋白质提供了新的解决方案。实验结果表明：CARBonAra设计的酶变体在高温下保持活性，具有较好的热稳定性（图2）。这不仅具有科学意义，也为酶催化合成和污染物降解等工业应用提供了广阔的前景。

CARBonAra模型的性能很大程度上取决于提供的非蛋白分子信息。如果非蛋白分子的结构或相互作用信息不准确，则模型的预测结果可能会受到影响。然而，在实践中多数情况下一些非蛋白信息可能会存在误差或者缺失。因此，如何获取准确的复合物结构以及提高模型的泛化能力仍然是该模型需要面对的问题。

参考文献

【1】Krapp, L.F., Meireles, F.A., Abriata, L.A. et al. Context-aware geometric deep learning for protein sequence design. Nat. Commun, 2024. https://doi.org/10.1038/s41467-024-50571-y.

ComputArt计算有乐趣

ComputArt由复旦药学院王任小研究员团队创建维护，旨在推送计算化学、分子模拟、药物设计等领域的新进展，提升大众对计算科学的关注。我们的口号是：科研有乐趣！计算有乐趣！欢迎国内外同行投稿，邮箱：wangrx@fudan.edu.cn

【原创】复旦大学药学院戚逸飞/王任小团队Chemical Science论文：设计蛋白-蛋白相互作用界面的深度学习模型

【官宣】PDBbind 2021版完全体诞生：蛋白-配体复合物精选集已上线

【佳作分享】美国得克萨斯大学秦天课题组Nature Reviews Chemistry综述：苯环的3D饱和生物电子等排体

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉