2024诺贝尔化学奖官方解读| AI破解蛋白质折叠之谜(附英文播客)

文摘   2024-10-10 08:35   英国  


引言

2024年的诺贝尔化学奖授予了David Baker、Demis Hassabis和John Jumper三位科学家,以表彰他们在计算蛋白质设计蛋白质结构预测领域取得的重大突破。

The Royal Swedish Academy of Sciences has decided to award David Baker, Demis Hassabis and John Jumper the Nobel Prize in Chemistry 2024, for computational protein design and protein structure prediction.

蛋白质结构的重要性

蛋白质是生命的基石,其功能与其三维结构密切相关。自1958年首次通过X射线晶体学确定蛋白质三维结构以来,科学家们就一直在努力破解蛋白质折叠的奥秘。

The first three-dimensional (3D) structures of proteins were determined by X-ray crystallography about 65 years ago.

图1

图1展示了蛋白质结构的层次性。从最基本的氨基酸序列(一级结构),到局部的几何结构如α-螺旋和β-折叠(二级结构),再到完整的三维结构(三级结构),最后是多个蛋白质亚基的组合(四级结构)。这张图清晰地展示了蛋白质结构的复杂性和多层次性。

蛋白质结构预测的挑战

预测蛋白质结构一直是一个巨大的挑战,主要原因有:

  1. 构象空间巨大:一个蛋白质可能的构象数量是天文数字级的。

Cyrus Levinthal estimated this number and gave name to what is called "Levinthal's paradox". It is often stated in terms of the number of possible conformations for a 100-amino-acid residue protein, which would be on the order of 10^47.

  1. 实验确定结构困难:通过实验方法(如X射线晶体学)确定蛋白质结构耗时费力。

图2显示了蛋白质数据库(PDB)中实验确定的蛋白质结构数量随时间的增长。从图中可以看出,尽管PDB中的结构数量呈指数增长,但相比于已知的蛋白质序列数量,已解析的结构仍然只是冰山一角。

计算蛋白质设计的发展

计算蛋白质设计是指通过计算机设计能形成特定三维结构的氨基酸序列。这个领域的发展经历了几个重要阶段:

  1. 首次成功:1997年,Dahiyat和Mayo首次成功通过计算机设计了一个小蛋白质。

The first successful design of a small protein via computation was published by Dahiyat and Mayo in 1997.

  1. Rosetta软件:David Baker团队在1999年开发了Rosetta软件,这是一个重要的突破。

The key to success here was their initial development a few years earlier (1999) of the Rosetta computer program.

  1. Top7蛋白质:2003年,Baker团队设计了一个全新的蛋白质结构Top7,这是一个里程碑式的成就。

The breakthrough in computational de novo protein design came in 2003, when David Baker and coworkers published the design and crystallographic validation of a 93-residue α/β-protein named Top7.

图3

图3展示了一个四螺旋束结构的示例,其内部为疏水性,外部表面为亲水性。这种设计原则是早期蛋白质设计的基础,通过安排疏水和亲水氨基酸的位置来创造稳定的蛋白质结构。

图5比较了Top7蛋白的预测结构(蓝色)和X射线晶体结构(红色)。左图显示了主链骨架的高度一致性,右图展示了侧链在蛋白质核心区域的精确匹配。这个结果证明了计算蛋白质设计已经达到了原子级别的精度。

蛋白质结构预测的突破

蛋白质结构预测的突破主要来自于深度学习技术的应用:

  1. CASP比赛:自1994年起,CASP(蛋白质结构预测关键评估)比赛成为评估结构预测进展的重要平台。

  2. AlphaFold1:2018年,DeepMind公司的AlphaFold1在CASP13比赛中表现出色。

With deep learning entering the structure prediction field, the performance had now risen to a GDT score of about 60%, and the AlphaFold team was clearly ahead of other participants.

  1. AlphaFold2:2020年,AlphaFold2在CASP14比赛中取得了突破性进展,其预测精度已经接近实验方法。

In the next round of CASP in 2020 (CASP14), the group from DeepMind had again not only achieved another leap in accuracy but could now actually present an accuracy competitive with experimental structures for a majority of targets.

图6左侧显示了CASP比赛中最佳模型在最困难目标上的表现随时间的进展。可以看到,直到2020年AlphaFold2的出现,预测精度才出现了显著的飞跃。右侧图表比较了AlphaFold2与其他参赛组在CASP14中的表现,清楚地展示了AlphaFold2的优越性。

图7是AlphaFold2的系统架构图。它包括两个主要模块:Evoformer和Structure模块。Evoformer处理多序列比对和配对表示,而Structure模块直接操作3D骨架结构。这种创新的架构设计是AlphaFold2成功的关键。


影响和展望

这些突破性进展对生物学和医学研究产生了深远影响:

We are now at a stage where both the structural design and prediction problems are largely solved. The implications of this are far-reaching.

一言以蔽之,Baker、Hassabis和Jumper的工作开启了生物化学和生物学研究的新时代,为我们理解和操控蛋白质提供了强大的工具。


英文播客






Biosyn世纪
施一公:“我相信,21世纪是生命科学的世纪,而华人生物学家将在其中发挥极为重要的作用。”
 最新文章