AI+生命化学!AlphaGo之父戴密斯·哈萨比斯等三人获诺贝尔化学奖

学术   2024-10-09 18:55   广东  

导读

北京时间10月9日下午,2024年诺贝尔化学奖正式揭晓。瑞典皇家科学院决定将 2024 年诺贝尔化学奖一半授予戴维·贝克David Baker,以表彰其对计算蛋白质设计的贡献,另一半则共同授予 戴密斯·哈萨比斯(Demis Hassabis约翰·乔普John M. Jumper,以表彰其对蛋白质结构预测的贡献。2024年的诺贝尔化学奖金为1100万瑞典克朗,约合750万元人民币。

刚刚,2024年诺贝尔化学奖揭晓!

2024年诺贝尔化学奖猜想:会重新回归生物化学领域吗?

戴维·贝克(David Baker),1962年出生于美国西雅图。1989年从美国加州大学伯克利分校获得博士学位。目前为美国华盛顿大学教授。

戴密斯·哈萨比斯(Demis Hassabis),1976年出生于英国伦敦。2009年从英国伦敦大学学院获得博士学位。目前为谷歌DeepMind CEO。被称作“AlphaGo之父”。

约翰·乔普(John M. Jumper),1985年出生于美国阿肯色州小石城。2017年从美国芝加哥大学获得博士学位。目前为谷歌DeepMind资深科学家。

化学家们一直梦想着完全理解和掌握生命的化学工具——蛋白质。现在这个梦想已经触手可及。Demis Hassabis和John M. Jumper已经成功利用人工智能预测了几乎所有已知蛋白质的结构。David Baker已经学会了如何掌握生命的组成部分并创造全新的蛋白质。他们的发现潜力巨大。

他们通过计算和人工智能揭示了蛋白质的秘密

生命如此丰富的化学反应是如何产生的?答案是蛋白质的存在,蛋白质可以说是一种出色的化学工具。它们通常由 20 种氨基酸组成,可以以无数种方式组合。利用 DNA 中存储的信息作为蓝图,氨基酸在我们的细胞中连接在一起形成长链。
然后,蛋白质的神奇之处就出现了:氨基酸链扭曲并折叠成独特的(有时是独一无二的)三维结构(图 1)。正是这种结构赋予蛋白质功能。一些蛋白质成为可以制造肌肉、角或羽毛的化学构件,而另一些则可能成为激素或抗体。它们中的许多形成酶,以惊人的精度驱动生命的化学反应。位于细胞表面的蛋白质也很重要,它们充当细胞与周围环境之间的通讯渠道。
© Johan Jarnestad/瑞典皇家科学院
生命化学构件这 20 种氨基酸所蕴含的潜力无论怎样强调都不为过。2024 年诺贝尔化学奖旨在表彰对氨基酸的全新理解和掌握。奖金的一半授予 Demis Hassabis 和 John Jumper,他们利用人工智能成功解决了化学家们 50 多年来一直困扰他们的一个问题:根据氨基酸序列预测蛋白质的三维结构。这让他们能够预测几乎所有 2 亿种已知蛋白质的结构。奖金的另一半授予 David Baker。他开发了计算机化方法来实现许多人认为不可能实现的事情:创造以前不存在的蛋白质,而且在许多情况下,这些蛋白质具有全新的功能。
2024 年诺贝尔化学奖表彰了两项不同的发现,但正如你所看到的,它们紧密相连。要了解今年的获奖者克服了哪些挑战,我们必须回顾现代生物化学的起源。

第一张蛋白质颗粒状照片

自 19 世纪以来,化学家们就知道蛋白质对生命过程至关重要,但直到 20 世纪 50 年代,化学工具才足够精确,研究人员才开始更详细地探索蛋白质。剑桥研究人员约翰·肯德鲁马克斯·佩鲁茨在 20 世纪 50 年代末取得了一项突破性的发现,他们成功地使用一种名为 X 射线晶体学的方法呈现了蛋白质的第一个三维模型。为了表彰这一发现,他们于 1962 年获得了诺贝尔化学奖。
图 1.蛋白质可以由几十个氨基酸到几千个氨基酸组成。氨基酸链折叠成三维结构,这对蛋白质的功能起着决定性作用。©Johan Jarnestad/瑞典皇家科学院 © Johan Jarnestad/瑞典皇家科学院
随后,研究人员主要利用X射线晶体学——往往需要付出巨大的努力——成功地生成了大约20万种不同蛋白质的图像,为2024年诺贝尔化学奖奠定了基础。

一个谜语:蛋白质如何找到自己独特的结构?

美国科学家克里斯蒂安·安芬森 (Christian Anfinsen)也做出了另一项早期发现。他利用各种化学技巧,成功使现有蛋白质展开,然后再次折叠起来。有趣的是,蛋白质每次都呈现出完全相同的形状。1961 年,他得出结论,蛋白质的三维结构完全由蛋白质中的氨基酸序列决定。这让他于 1972 年获得诺贝尔化学奖。
然而,安芬森的逻辑中却存在一个悖论,另一个美国人赛勒斯·列文塔尔在 1969 年就指出了这一点。他计算出,即使一种蛋白质只由 100 种氨基酸组成,理论上该蛋白质至少可以呈现 10 47种不同的三维结构。如果氨基酸链随机折叠,那么找到正确的蛋白质结构所需的时间将比宇宙的年龄还要长。在细胞中,这只需要几毫秒。那么氨基酸链究竟是如何折叠的呢?
安芬森的发现和列文塔尔悖论暗示折叠是一个预先确定的过程。而且——重要的是——有关蛋白质如何折叠的所有信息都必须存在于氨基酸序列中。

迎接生物化学的巨大挑战

上述见解带来了另一个决定性的认识——如果化学家知道蛋白质的氨基酸序列,他们就应该能够预测蛋白质的三维结构。这是一个令人兴奋的想法。如果他们成功了,他们将不再需要使用繁琐的 X 射线晶体学,并且可以节省大量时间。他们还将能够为所有不适用 X 射线晶体学的蛋白质生成结构。
这些合乎逻辑的结论向生物化学领域的巨大挑战——预测问题——发起了挑战。为了促进该领域的更快发展,研究人员于 1994 年启动了一项名为“蛋白质结构预测关键评估”(CASP)的项目,该项目发展成为一场比赛。每隔一年,来自世界各地的研究人员就会获得刚刚确定结构的蛋白质的氨基酸序列。然而,这些结构对参与者是保密的。挑战是根据已知的氨基酸序列预测蛋白质结构。
CASP 吸引了众多研究人员,但解决预测问题却异常困难。研究人员在竞赛中输入的预测与实际结构之间的对应关系几乎没有任何改善。直到 2018 年,一位国际象棋大师、神经科学专家和人工智能先驱进入该领域,才取得了突破。

棋盘游戏大师参加蛋白质奥运会

让我们简单了解一下 Demis Hassabis 的背景:他从四岁开始下棋,13 岁时就达到了大师水平。十几岁时,他开始了程序员和成功的游戏开发者的职业生涯。他开始探索人工智能,并涉足神经科学,在那里他取得了几项革命性的发现。他利用自己对大脑的了解为人工智能开发了更好的神经网络。2010 年,他与他人共同创立了 DeepMind,这家公司为流行的棋盘游戏开发了精湛的人工智能模型。该公司于 2014 年被出售给谷歌,两年后,DeepMind 引起了全球关注,当时该公司实现了许多人认为是人工智能的圣杯:击败了世界上最古老的棋盘游戏之一围棋的冠军选手。
然而,对于哈萨比斯来说,围棋并不是目标,而是开发更好的人工智能模型的手段。在这次胜利之后,他的团队准备解决对人类更重要的问题,因此在 2018 年他报名参加了第十三届 CASP 比赛。

Demis Hassabis 的 AI 模型意外获胜

前些年,研究人员为 CASP 预测的蛋白质结构最多只能达到 40% 的准确率。而哈萨比斯团队的人工智能模型 AlphaFold 的准确率则接近 60%。他们最终获胜,而优异的结果让许多人感到意外——这是意料之外的进展,但解决方案还不够好。要想成功,预测结果与目标结构的准确率必须达到 90%。
图2. AlphaFold2 如何工作? © Johan Jarnestad/瑞典皇家科学院
哈萨比斯和他的团队继续开发 AlphaFold——但无论他们多么努力,算法都未能完全成功。残酷的事实是,他们已经走进了死胡同。团队已经筋疲力尽,但一位相对较新的员工对如何改进人工智能模型有着决定性的想法:约翰·江珀 (John Jumper)。

约翰·江珀 (John Jumper) 接受生物化学的巨大挑战

约翰·江珀对宇宙的迷恋使他开始学习物理和数学。然而,2008 年,当他开始在一家使用超级计算机模拟蛋白质及其动力学的公司工作时,他意识到物理知识可以帮助解决医学问题。
2011 年,当 Jumper 开始攻读理论物理学博士学位时,他对蛋白质产生了浓厚的兴趣。为了节省计算机容量(当时大学里计算机容量非常紧缺),他开始开发更简单、更巧妙的方法来模拟蛋白质动力学。很快,他也接受了生物化学的巨大挑战。2017 年,他刚刚完成博士学位,就听到有传言称,谷歌 DeepMind 已经开始秘密预测蛋白质结构。他向他们发送了一份工作申请。他在蛋白质模拟方面的经验使他对如何改进 AlphaFold 有了创造性的想法,因此,在团队开始停滞不前后,他得到了晋升。Jumper 和 Hassabis 共同领导了从根本上改革人工智能模型的工作。

改革后的人工智能模型取得了惊人的成果

新版本 AlphaFold2 以 Jumper 对蛋白质的了解为蓝本。该团队还开始使用人工智能领域最近取得巨大突破背后的创新:称为transformers的神经网络。这些神经网络可以以比以前更灵活的方式在大量数据中找到模式,并有效地确定应该关注什么才能实现特定目标。
研究团队利用数据库中所有已知蛋白质结构和氨基酸序列的海量信息(图 2)对 AlphaFold2 进行了训练,新的 AI 架构在第十四届 CASP 竞赛开始取得良好的成绩。
2020 年,当 CASP 的组织者评估结果时,他们意识到生物化学 50 年的挑战已经结束。在大多数情况下,AlphaFold2 的表现几乎与 X 射线晶体学一样好,这令人震惊。当 CASP 的创始人之一约翰·莫尔特 (John Moult) 于 2020 年 12 月 4 日结束比赛时,他问道——现在怎么办?
我们稍后会回到这个问题上。现在,我们将回到过去,介绍 CASP 的另一位参与者。让我们介绍 2024 年诺贝尔化学奖的另一半,该奖项涉及从零开始创造新蛋白质的艺术。

一本关于细胞的教科书让大卫·贝克改变了方向

大卫·贝克开始在哈佛大学学习时,选择了哲学和社会科学专业。然而,在学习进化生物学课程时,他偶然发现了现已成为经典教科书的《细胞分子生物学》的初版。这导致他的人生方向发生了改变。他开始探索细胞生物学,并最终对蛋白质结构着迷。1993 年,当他开始担任西雅图华盛顿大学的课题组长时,他接受了生物化学的巨大挑战。通过巧妙的实验,他开始探索蛋白质如何折叠。这为他提供了深刻的见解,并在 20 世纪 90 年代末开始开发可以预测蛋白质结构的计算机软件:Rosetta。
1998 年,贝克首次使用 Rosetta 参加 CASP 竞赛,与其他参赛者相比,它的表现非常出色。这次成功带来了一个新想法——大卫·贝克的团队可以反向使用该软件。他们不必在 Rosetta 中输入氨基酸序列并得到蛋白质结构,而是可以输入所需的蛋白质结构并获得其氨基酸序列的建议,这将使他们能够创建全新的蛋白质。

贝克成为蛋白质建造者

蛋白质设计领域始于 20 世纪 90 年代末,研究人员设计具有新功能的定制蛋白质。在许多情况下,研究人员对现有蛋白质进行调整,以便它们能够分解危险物质或作为化学制造业的工具。
然而,天然蛋白质的范围有限。为了增加获得具有全新功能的蛋白质的可能性,贝克的研究小组希望从头开始创造它们。正如贝克所说,“如果你想制造一架飞机,你不会从改造一只鸟开始;相反,你要了解空气动力学的基本原理,并根据这些原理制造飞行器。”

图 3. Top7 – 第一个与所有已知现有蛋白质完全不同的蛋白质©Terezia Kovalova/瑞典皇家科学院


一种独特的蛋白质问世

构建全新蛋白质的领域称为从头设计。研究小组绘制了一种具有全新结构的蛋白质,然后让 Rosetta 计算哪种氨基酸序列可以产生所需的蛋白质。为此,Rosetta 搜索了所有已知蛋白质结构的数据库,并寻找与所需结构相似的蛋白质短片段。然后,Rosetta 利用蛋白质能量图的基本知识优化了这些片段并提出了一个氨基酸序列。
为了研究该软件的成功程度,贝克的研究小组将拟议氨基酸序列的基因引入到产生所需蛋白质的细菌中。然后他们使用 X 射线晶体学确定了蛋白质结构。
事实证明,Rosetta 确实可以构建蛋白质。研究人员开发的蛋白质Top7几乎与他们设计的结构完全一致。

贝克实验室的惊人创造

Top7 的诞生对从事蛋白质设计的研究人员来说是一个意外的惊喜。之前设计从头蛋白质的人只能模仿现有的结构。Top7 的独特结构在自然界中并不存在。此外,该蛋白质含有 93 种氨基酸,比之前使用从头设计生产的任何蛋白质都要大。
贝克于 2003 年发表了他的发现。这是一项只能被描述为非凡发展的第一步;图 4 中可以看到贝克实验室创造的众多令人惊叹的蛋白质中的几种。他还发布了 Rosetta 的代码,因此全球研究界继续开发该软件,寻找新的应用领域。
现在是时候解决 2024 年诺贝尔化学奖的悬而未决的问题了。现在怎么办?
图 4.使用 Baker 的 Rosetta 程序开发的蛋白质。 ©Terezia Kovalova/瑞典皇家科学院

以前需要几年时间才能完成的工作现在只需几分钟

当 Demis Hassabis 和 John Jumper 确认 AlphaFold2 确实有效后,他们计算了所有人类蛋白质的结构。然后他们预测了研究人员在绘制地球生物图谱时迄今发现的几乎所有 2 亿种蛋白质的结构。
Google DeepMind 还将 AlphaFold2 的代码公开,任何人都可以访问。这个人工智能模型已经成为研究人员的金矿。到 2024 年 10 月,来自 190 个国家的 200 多万人使用了 AlphaFold2。以前,获得蛋白质结构通常需要数年时间,现在只需几分钟即可完成。这个人工智能模型并不完美,但它可以估计它所生成的结构的正确性,因此研究人员知道预测的可靠性。图 5 显示了 AlphaFold2 如何帮助研究人员的众多例子中的几个。
2020 年 CASP 竞赛结束后,David Baker 意识到了基于 Transformer 的 AI 模型的潜力,于是在 Rosetta 中加入了 Transformer,这也促进了蛋白质的从头设计。近年来,Baker 的实验室中出现了一个又一个令人难以置信的蛋白质创造物(图 4)。
图 5.使用 AlphaFold2 确定蛋白质结构。 ©Terezia Kovalova/瑞典皇家科学院

令人眼花缭乱的发展造福人类

蛋白质作为化学工具的惊人多功能性反映在生命的多样性中。我们现在可以如此轻松地看到这些小分子机器的结构,这令人难以置信;它让我们更好地了解生命的运作方式,包括某些疾病为何发展、抗生素耐药性如何产生或某些微生物为何能够分解塑料。
创造具有新功能的蛋白质的能力同样令人惊叹。这可以带来新的纳米材料、靶向药物、更快的疫苗开发、最小的传感器和更绿色的化学工业——这些只是为人类带来最大利益的几个应用。(机器翻译,仅供参考)


关注化学加视频号

查看直播视频回放

来源:化学加综合自网络、诺贝尔官网

化学加
业界明星号,投稿 gongjian@huaxuejia.cn;合成化学产业资源聚合服务平台,SixMol 仪器设备供应商;央视两次报道,化学加APP已编入大学教科书。
 最新文章