Angew 高效生物催化剂和生物活性蛋白的结构预测和计算蛋白质设计 格赖夫斯瓦尔德大学 Uwe Bornscheuer

文摘   2024-11-27 18:47   辽宁  

摘要

预测和设计蛋白质结构的能力已经在医学、诊断学和可持续化学制造中带来了许多应用。此外,大量预测的蛋白质结构推动了我们对生命分子如何运作和相互作用的理解。为了表彰那些从根本上改变科学家研究和工程蛋白质方式的工作,2024 年诺贝尔化学奖授予了 David Baker,以表彰其在计算蛋白质设计方面的贡献;同时,Demis Hassabis 和 John Jumper 因开发 AlphaFold 进行基于机器学习的蛋白质结构预测而共同获得此奖项。

在此,作者重点介绍了这些计算工具发展的重要贡献及其在有机合成中应用于功能蛋白设计的重要性。值得注意的是,这两项技术深刻影响了药物发现,因为现在任何治疗性蛋白质靶标都可以进行建模,从而实现肽类结合物的 de novo 设计,以及通过体外对接大规模化合物库来识别小分子配体。展望未来,作者重点介绍了蛋白质工程、药物化学和材料设计的未来研究方向,这些方向是由蛋白质科学的这种变革性转变促成的。

结果与讨论

蛋白质结构预测和蛋白质设计正在快速改变药物开发、化学检测和小分子合成的方式。自 1957 年首个蛋白质结构通过 X 射线晶体学解析以来,科学家通过实验技术解决了约 20 万个蛋白质结构,奠定了蛋白质功能研究和理性优化的基础。2020 年发布的 AlphaFold2 更进一步,预测了数百万种蛋白质的三级结构,目前开放数据库(如与 EMBL 合作建立的 AlphaFold 蛋白质结构数据库)已收录超过 2 亿个蛋白质结构,涵盖了几乎所有已知的科学记录蛋白。实验与计算预测数据的结合,不仅推动了科学家从零开始构建折叠蛋白质的能力,也促成了基于人工智能和物理学的蛋白质设计工具的开发。David Baker 等研究者从简单的四螺旋束和锌指蛋白等系统入手,开创了利用计算技术设计新型蛋白质结构的方法,为全球实验室的蛋白质设计工作提供了重要支持。
1. 基于物理学的新蛋白质设计
Top7 的设计是蛋白质科学的里程碑,标志着蛋白质工程从修饰天然蛋白质扩展到创造全新蛋白质。David Baker 团队利用 Rosetta 软件成功设计了具有全新折叠的蛋白质,并实现接近原子级精度。如今,基于 Rosetta 的设计已应用于蛋白结合体、纳米结构、疫苗等领域,其中包括首个基于计算设计的药物——COVID-19 疫苗 SKYCovione。此外,Rosetta 的物理能量函数和模块化架构使其功能持续扩展,广泛用于蛋白质稳定性优化、抗体工程、分子对接和酶设计等,为结构生物学和蛋白质工程提供了强大工具。
2. 使用天然蛋白质支架进行酶设计
设计具有定制催化功能的蛋白质为可持续化学品合成提供了重要工具。Baker 团队通过 in silico 工作流,将量子力学计算的“理论酶”嵌入蛋白质支架,并优化活性位点,成功开发了新型催化酶,部分催化活性已接近天然酶。此外,Rosetta 还用于增强野生型酶的旁系活性,例如优化用于 HIV 药物 islatravir 合成的泛酸激酶(图1a方案1)。

图1. 新型功能的计算蛋白质设计

图1. 设计酶的示例

3. 基于机器学习的从头蛋白质设计
几年来,计算蛋白质设计的精度通过引入人工智能(AI)方法,如扩散模型和神经网络,得到了显著提升。RFdiffusion 利用这些模型生成新型蛋白质结构,从随机或引导的主链开始,通过去噪声迭代生成符合结构约束和期望功能的蛋白质。经过大数据集训练,RFdiffusion 能生成稳定、功能性强的蛋白质,已成功设计出结合蛋白、酶模拟物等,并通过实验验证其结构和功能。另一种全原子扩散模型 Protpardelle 则同时设计蛋白质的主链、序列和侧链(图1b)。
4. 逆向折叠
Message-Passing Neural Network (MPNN) 是一种用于蛋白质序列设计的深度学习架构,通过输入蛋白质主链结构,利用图神经网络预测最优氨基酸序列,成功设计稳定的蛋白质。ProteinMPNN 在蛋白质稳定性优化、界面设计和新支架创建方面表现出高可靠性,已被用于优化已知结构的序列,并成功设计出能够靶向降解蛋白质和结合肽类激素等的蛋白质。此外,ProteinMPNN、RFdiffusion 和 AlphaFold 等工具已广泛应用于计算设计新型蛋白质,LigandMPNN 则在与小分子、核苷酸和金属相互作用的残基设计中,优于传统方法如 Rosetta。
5. 使用从头蛋白质支架进行酶设计
设计的 de novo 蛋白质结构提供了更大控制力,能够精确调控蛋白质的主链、活性位点和整体结构,以适应特定反应机制,避免进化限制。通过这种方法,设计的荧光素酶能够选择性地氧化二苯基四氮唑,催化效率(kcat/KM)达到 106 M−1 s−1,接近天然荧光素酶的水平。此外,结合 RFdiffusion 和 ChemNet,Baker 团队设计了高效的丝氨酸和锌依赖水解酶,催化效率可达 2.3 x 10^4 M−1 s−1,展示了 de novo 设计在化学和制药工业中的应用潜力。
6. 根据序列预测蛋白质结构
预测蛋白质三级结构一直是生物化学和结构生物学的难题。尽管有逐步进展,过去的计算方法在没有已知相似结构的情况下难以实现原子级精度。2020年,DeepMind 团队推出的 AlphaFold 使用神经网络模型,能够在无同源结构的情况下精准预测蛋白质结构,并在 CASP14 竞赛中以 90% 的准确度超越其他计算方法,包括 Rosetta。
6.1 AlphaFold2
AlphaFold2的成功源于其创新架构,结合多重序列比对(MSA)利用进化信息精确预测蛋白质结构,推动了结构生物学、蛋白质研究、疫苗设计等领域的进展。尽管在药物发现中的应用有限,但 AlphaFold2 在前瞻性研究中已展现出显著效用。例如,它在获得实验结构前就成功选择了 σ2 受体和血清素 2A 受体等靶点进行配体发现,并有效地与大规模小分子库对接,发现了潜在的配体。AlphaFold2 的模型还帮助识别低能量的受体构象,拓展了分子空间。该模型也在设计小分子配体方面取得了成功,展示了其在药物开发中的潜力(图2)。

图2. AlphaFold2的模型架构

6.2 AlphaFold3

AlphaFold3 是 AlphaFold2 的进一步优化版本,具有更强的生物分子建模能力,支持包括修饰残基、金属、配体和核酸在内的广泛生物分子复合物建模。与 AlphaFold2 专注于蛋白质和蛋白质-蛋白质复合物不同,AlphaFold3 通过独立原子建模,无刚性约束,能够更好地学习分子结构,提高蛋白质-配体相互作用的捕捉能力。

7. 未来方向

我们正迈向一个定制蛋白质设计像订购自动售货机商品一样普及的未来,科学家可以根据功能、大小和结合特性来指定蛋白质。尽管仍面临创造新催化功能、理解蛋白质构象变化及设计多功能分子机器等挑战,但 AI 驱动的工具,如 RFdiffusion 和 AlphaFold,已展示了在设计复杂酶反应轨迹中的潜力。
动态蛋白质的可编程设计需要优化能量景观,实现多状态间的可控转变。数据驱动的技术,特别是分子动力学模拟,将进一步推动动态蛋白质的理解与创造。量子计算的进展预计将加速解决生物催化中的一些难题。尽管 in silico 设计日益重要,但定向进化仍是提高酶性能的关键技术。
未来,机器学习的应用和高质量生物数据的积累将推动酶工程的发展,使定制设计蛋白质的目标成为现实。

论文相关信息

文章信息:Structure Prediction and Computational Protein Design for Efficient Biocatalysts and Bioactive Proteins

文章链接:https://doi.org/10.1002/anie.202421686

 左下角阅读原文

蛋白质工程与生物催化
广阔的生物世界
 最新文章