不只是 AlphaFold!一文读懂蛋白质折叠的前世今生:从“不可能”到“轻而易举”

科技   2024-07-06 12:07   日本  

大数据文摘授权转载自学术头条

原文作者:Yasemin Saplakoglu

编译:马雪薇


【编者按】一维的分子链如何正确折叠成特定的三维形状,这被称为蛋白质折叠问题。三年前,谷歌的 AlphaFold 实现了迄今为止科学界最大的人工智能(AI)突破——蛋白质结构预测准确率超过 90%。


这加速了分子研究,并引发了关于我们为什么要做科学的深层次问题。然而,这是否意味着人工智能永远改变了蛋白质科学的研究范式?


日前,Quanta Magazine 科学作家 Yasemin Saplakoglu 在一篇长文中详细介绍了蛋白质折叠问题的历史——从早期实验学家使用 X 射线晶体学解析蛋白质结构,到计算生物学家尝试通过算法预测结构,再到 AlphaFold 的出现及其带来的颠覆性影响。同时,她也探讨了人工智能在蛋白质科学领域的突破性进展,特别是 AlphaFold 如何改变蛋白质结构预测,并引发关于科学未来和人工智能角色的深刻思考。


如今,人工智能正在颠覆蛋白质科学,但或许并未终结它,事实是怎样的?


(全文近 25000 字,干货满满,建议收藏。)



在不改变原文大意的情况下,做了简单的编译。内容如下:


2020 年 12 月,数百名计算科学家聚集在他们的屏幕前,一起见证了科学新时代的到来。


他们参加了一场会议,这是一场部分人已经参加了近三十年的友好比赛,在这里,他们可以聚在一起,专注于同一个问题。这个问题就是蛋白质折叠问题,说起来非常简单:他们能否从最基本的信息——蛋白质分子的一维分子编码——准确预测出蛋白质分子的三维形状?蛋白质维持我们的细胞和身体的生存与运行。由于蛋白质的形状决定了它的功能,因此成功解决这一问题将对我们理解疾病、生产新药以及洞察生命运作方式产生深远影响。


在这场每两年举行一次的会议上,科学家们测试了他们最新的蛋白质折叠工具。但似乎距离实现这一目标总是遥不可及。他们中的一些人穷极一生试图在这方面预测上取得一点点进步。每次比赛只是带来微小的进步,他们当时没有理由认为 2020 年会有什么不同。


但他们错了。


就在那一周,蛋白质科学界的新秀 John Jumper 展示了一种新的人工智能工具 AlphaFold2,这款工具出自 Google DeepMind。在 Zoom 会议上,他提交的数据显示,AlphaFold2 的三维蛋白质结构预测模型准确率超过 90%,比最接近的竞争对手高出五倍。


顷刻之间,蛋白质折叠问题从“不可能”变得“轻而易举”。人工智能在这一人类思维无法解决的领域取得的成功震撼了生物学界。哥伦比亚大学数学基因组学项目的系统生物学家 Mohammed AlQuraishi 参加了会议,他说:“我感到震惊,很多人都不相信。”


但在总结发言中,会议组织者 John Moult 毫不怀疑地相信:AlphaFold2 已经“在很大程度上解决了”蛋白质折叠问题——并永远改变了蛋白质科学。在家中书房的书架前,穿着黑色高领毛衣的 Moult 通过 Zoom 点击幻灯片,他的语气既兴奋又带有一丝严肃。“这不是终点,而是开始,”他说。


图|蛋白质是具有数亿种不同形状的分子。从在血液中携带氧气到引发化学反应,每一种蛋白质都具有特定的生物功能。功能通常由其形状或结构来定义。(来源:RCSB PDB)


当谷歌将这一消息推向世界时,媒体为之疯狂。头条新闻宣称 AlphaFold2 “将改变一切”。那些毕生致力于研究单个蛋白质结构的蛋白质生物学家担心自己会失业。一些人声称,AlphaFold2 将彻底改变药物开发;现在,生物学家可以快速了解蛋白质的形状,他们可以创造出针对这些蛋白质的新药物。另一些人则持反对意见,认为这些结果大多是炒作,变化不会太大。


Moult 自己也几乎无法理解这件事,他带着大家心中的疑问结束了会议:“接下来该怎么办?”


那是三年半以前的事了。现在终于可以开始回答他的问题了。


不可否认的是,AlphaFold2 改变了生物学家研究蛋白质的方式。然而,虽然 AlphaFold2 是一个强大的预测工具,但它并不是一个无所不知的机器。它非常巧妙地解决了蛋白质折叠问题的一部分,但不是以科学家的方式解决的。它并没有取代生物实验,而是强调了生物实验的必要性。


也许 AlphaFold2 最大的影响是让生物学家关注到人工智能的力量。它已经启发了新的算法,包括设计自然界中不存在的新蛋白质的算法;新的生物技术公司;以及新的科学实践方式。它的后继者 AlphaFold3 于 2024 年 5 月发布,通过模拟蛋白质与其他分子(如 DNA 或 RNA)结合的结构,进入了生物预测的下一个阶段。


“这是科学领域中有关机器学习的最大的故事。” AlQuraishi 说道。


然而,仍有大量的空白尚未被人工智能填补。这些工具无法模拟蛋白质如何随时间发生变化,也无法在蛋白质存在的环境(即细胞内)中模拟它们。在劳伦斯伯克利国家实验室开发生物分子结构建模算法的结构生物学家 Paul Adams 说:“AlphaFold 改变了一切,却也没有改变任何东西。”


这就是 Jumper 团队如何在蛋白质科学领域取得突破的故事,以及这对人工智能在生物学领域的未来意味着什么。


第一部分:提出问题


一张折纸在以特定方式被折叠之前,只不过是压制的木浆;一旦被折叠,它就变成了新的东西。几次精确的折叠和翻转后,它就变成了一种可以预测你未来的纸制品——幸运签。同样的一张纸,改变几个折叠步骤,就变成了一只展翅欲飞的鹤,象征着好运的降临。


类似地,一长串氨基酸分子在自发折叠成其特定形状(生物学家将其称之为结构)之前没有任何功能。蛋白质的结构决定了它如何与其他分子结合或相互作用,因此也决定了它在细胞中的作用。


图|蛋白质结构水平(来源:Mark Belan)


地球上已知的蛋白质有数亿种,未知的也有很多。它们承担着各种各样的功能:血红蛋白和肌红蛋白将氧气运输到肌肉和全身;角蛋白为头发、指甲和皮肤提供结构;胰岛素使葡萄糖进入细胞,转化为能量。蛋白质可以呈现出看似无穷多的形状,从而匹配它们在生命活动中执行的看似无穷多的任务。

“从原子到生态系统,(蛋白质结构)就像是一种通用语言,”AlQuraishi 说道。“所有事情都在这里发生。”


细胞通过将称为氨基酸的小分子串成长长的多肽链来制造蛋白质。选择哪种氨基酸取决于 DNA 提供的指令集。在生成后的瞬间,多肽链精确地弯曲、折叠成蛋白质的最终三维形状。一旦离开分子装配线,它就迅速开始执行其生物学功能。


如果蛋白质不能极其高效地完成这一折叠过程,一系列灾难就会在人体内发生进。折叠错误或解开的蛋白质可能会产生毒性和导致细胞死亡。许多疾病和障碍,如镰状细胞性贫血,都是由折叠错误的蛋白质引起的。折叠错误的蛋白质还可以聚集成团块,这是阿尔茨海默病和帕金森病等神经退行性疾病的标志。


然而,没有人真正知道蛋白质折叠的具体过程。如何从这些简单分子链中的序列信息编码出蛋白质的复杂形状?这是“我们可以提出的最深奥的问题”,约翰·霍普金斯大学的生物物理学名誉教授 George Rose 说道。


图|20 世纪 50 年代,生物化学家 Christian Anfinsen 发现,一串氨基酸包含一个内部编码,告诉它如何折叠成蛋白质,而且有办法根据该编码预测蛋白质的形状。这一假说被称为安芬森法则(Anfinsen’s dogma)。


早在 20 世纪 30 年代,科学家们就开始探究这个问题。但是,真正的尝试是在 20 世纪 50 年代中期,当时生物化学家 Christian Anfinsen 将蛋白质加入化学溶液中,这些溶液要么通过断裂蛋白质的键使其展开,要么导致其错误折叠。然后,他观察了它们接下来的行为。Anfinsen 发现,展开或错误折叠的蛋白质可以自发地重新折叠成它们的正确结构。他的发现证明了蛋白质从其内部编码(来自氨基酸)形成其三维形状,这后来为他赢得了诺贝尔奖。


Anfinsen 假设,应该有一种方法可以根据氨基酸序列预测蛋白质的形状。这就是后来广为人知的蛋白质折叠问题。


一旦多肽链组装完成,蛋白质就可以在千分之一秒内折叠成自己的结构——这让分子生物学家 Cyrus Levinthal 感到困惑。在他于 1969 年发表的论文 How to Fold Graciously 中,他计算出,如果一个蛋白质要尝试每一种可能的折叠方案,其组装时间将长得不可想像。他认为,显然有某种机制可以更直接地引导蛋白质走向正确的折叠路径。


随着时间的推移,蛋白质折叠问题又衍生出新的问题。主要包括以下三点:能否根据氨基酸序列预测蛋白质的结构?折叠的“密码”是什么?折叠机制又是什么?


20 世纪 60 年代早期,第一批通过实验确定的蛋白质结构问世。剑桥大学的两位生物学家 Max Perutz 和 John Kendrew 将蛋白质培育成晶体,用 X 射线轰击它们,并测量射线的弯曲情况——这种技术称为 X 射线晶体学。通过这种方法,他们确定了血红蛋白和肌红蛋白的三维结构。他们花了二十多年的时间,并因此共同获得了诺贝尔奖。


图|John Kendrew(左)和 Max Perutz(右) 利用 X 射线晶体学技术揭示了血红蛋白和肌红蛋白的结构。随后,他们用球(代表原子)和棒(代表化学键)建立了物理模型。(来源:MRC Laboratory of Molecular Biology)


从那时起,无数研究人员不仅努力了解不同蛋白质的外观,还试图了解它们如何形成那样的外观。“了解事物的外观非常重要,因为这样你可以理解它们的功能,”格拉斯哥大学结构生物学家 Helen Walden 说道。有些人研究问题的化学性质,有些人则研究了物理性质。实验学家通过艰苦的实验室工作重建了蛋白质形状。计算生物学家通过模型和模拟寻找线索,并用不同的算法规则组合进行编程和重新编程。


随着更多结构的出现,蛋白质科学界需要一种方法来组织和共享它们。1971 年,蛋白质资料库(Protein Data Bank)成立,作为蛋白质结构的档案库。该数据库可免费使用,成为任何需要了解蛋白质结构、进而探究生物学问题的人的可靠工具。


蛋白质资料库刚刚建立时,仅包含七种蛋白质的结构。近 50 年后,到 Google DeepMind 用它来训练 AlphaFold2 时,它已包含超过 14 万个蛋白质结构——每一个都是由结构生物学家辛苦解码来的。


实验主义者的痛苦


从 20 世纪 70 年代中期开始,每隔几个月,牛津大学生物物理学家 Janet Thornton 都会收到一个邮寄包裹。里面装有一卷 12 英寸的磁带,包含了存储在蛋白质资料库中的新蛋白质结构数据。每一次,她都会迫不及待地撕开包裹,立即对它们进行分析。她收到的第一卷磁带中只有 20 个结构。


图|结构生物学家 Janet Thornton(来源:Jeff Dowling)


每一个蛋白质都代表了多年的工作。通常情况下,一个博士生会在研究生阶段的四年或更长时间里,都在研究单个蛋白质的结晶,从中收集或解释数据,从而确定折叠结构。


在当时,牛津大学生物物理学系是世界上 X 射线晶体学的中心之一。1965 年,蛋白质晶体学的先驱之一 David Phillips 在那里首次确定了溶菌酶(免疫系统用它来攻击细菌)的结构。利用 X 射线晶体学,牛津大学的生物物理学家绘制了蛋白质的电子密度图;电子聚集的区域可能包含一个原子。Thornton 和她的同事将这些电子密度图打印到塑料板上,并一层层叠加起来,绘制出了蛋白质的地理“等高线图”。


图|X 射线晶体学可以帮助科学家绘制电子密度图,直观地显示电子聚集的位置,从而显示原子在分子中可能的位置。通过将电子密度图叠加在一起(左图),科学家可以推断出蛋白质或青霉素等其他分子的结构(右图)。(来源:Science Museum Group)


然后,他们将电子密度图转换成物理模型。他们将这些“塑料图”放入 Richards 盒中,这个装置是牛津大学生物物理学家 Frederic Richards 于 1968 年发明的。在 Richards 盒中,一面倾斜的镜子将电子密度图反射到工作区,允许科学家们准确看到每个原子相对于其他原子的位置。然后,他们用球和棒构建了一个物理模型。


这种方法既笨重,又有局限性。1971 年,Louise Johnson 正在为磷酸化酶建模,当时,磷酸化酶是任何人研究过的最大蛋白质,包含 842 个氨基酸。为了建立模型,Johnson 不得不爬上一个两层楼高的 Richards 盒,这是牛津为她的项目特别建造的。


模型完成后,科学家们用尺子测量原子之间的距离,从而得出蛋白质结构的坐标。“这种方法很原始”,Thornton 说。然后他们将坐标输入计算机。计算机版本看起来就像一片茂密的森林,原子混杂地挤在一起。只有当 Thornton 戴上 3D 眼镜观察结构时,她才能开始看到蛋白质的拓扑结构。


“这真是一个非常痛苦的过程”,Thornton 说。“真是不可思议,它居然完成了。”


图|X 射线晶体学是如何工作的。(来源:Mark Belan)


一旦研究人员对他们的蛋白质结构有了信心,他们就会将其提交到蛋白质资料库。到 1984 年,已有 152 种蛋白质被存入。到 1992 年,这一数字攀升至 747。


当实验学家们还在苦苦研究物理模型时,另一派蛋白质生物学家——计算科学家——却采取了不同的方法。但是,当他们思考 Anfinsen 的说法,即蛋白质的结构应该可以从氨基酸序列中预测出来时,他们变得有些自信过头了。


编写自己的规则


20 世纪 60 年代初期,当时还在读本科的 John Moult,计划成为一名物理学家。后来,他了解到蛋白质折叠问题。“有人来做了一场演讲,认为生物学太重要了,不能只留给生物学家处理,”他说,“我认真对待了这个问题。”被深深吸引后,他将职业生涯转向了另一个方向。


毕业后,Moult 投身于蛋白质晶体学领域。他破解了几种蛋白质的结构,包括一种能破坏青霉素的细菌酶——β-内酰胺酶,并于 1970 年在牛津大学获得分子生物物理学博士学位。但在开始博士后研究时,他厌倦了实验主义者的方法,开始转向不断发展的蛋白质计算领域。与实验主义者不同,计算生物学家编写计算机算法,试图证明 Anfinsen 是正确的:他们可以向一个程序输入一串氨基酸,从而生成正确的蛋白质结构。


图|John Moult 等人创立了结构预测关键评估(CASP)实验,迫使自己和其他计算生物学家用实验确定的蛋白质结构来检验他们的蛋白质计算机模型。(来源:Umit Gulsen)


从生物实验到计算的转变并不轻松。Moult 习惯于缓慢而细致地解决单一蛋白质结构问题。而在他的新领域,计算论文经常声称已经解决了蛋白质折叠问题及相关子问题。


Moult 对此持怀疑态度。“在这一领域发表的论文并不像我所习惯的那么严谨,”他说。“这并不是因为我们这一领域的人都是一群骗子。而是因为如果你在做这种计算工作,你就是在一个虚拟世界中进行的。”


在虚拟世界中,当自然界的规则不起作用时,计算主义者便自己编写规则。他们设计算法,使原子以某种方式粘在一起,或者让蛋白质总是向右或向左折叠。随着时间的推移,这些模型离现实越来越远。Moult 说,在一个你可以完全控制的世界里,保持严谨性是很难的。


尽管如此,他还是看到了两个方向的价值。实验主义者工作精确但速度慢;计算主义者工作快速但远离生物物理现实,往往是错误的。


他认为,必须有一种方法,可以将这两种方法的优点结合起来。


开始起步


20 世纪 90 年代初,Moult 和他的同事 Krzysztof Fidelis 想出了一个办法,他们设立了一个社区科学实验,即结构预测关键评估(CASP),将规范带入了这一混乱的领域中。


这个想法很简单。作为 CASP 的组织者,Moult 和 Fidelis 会发布一份蛋白质氨基酸序列列表,这些蛋白质的结构已由实验主义者解决并提供给他们,但结果尚未发表。然后,世界各地的计算团队会尽力使用他们想要的方法来预测这些蛋白质的结构。一个独立的科学家小组将通过比较他们的答案和实验验证的结构来评估这些模型。


这个想法迅速流行起来。CASP 很快成为蛋白质折叠问题计算方法的试验场。那时还没有人工智能,计算方法涉及模拟分子物理学。这是科学家们在公开试验中检验自己想法的机会,并与同行们一较高下。“这本不应该是一场竞争,”Thornton 说道。“但实际上它却变成了一场竞争。”


每两年,科学家们都会聚集在阿西洛马会议中心,这是一个位于加利福尼亚蒙特雷附近的古老教堂,曾是卫理公会的疗养地。在这些会议上,组织者宣布竞赛结果,计算学家们则介绍他们的方法和策略。Moult 鼓励与会者在不喜欢所听到的内容时在木地板上跺脚。


“一开始,跺脚的次数相当多,”他说。


“几乎像打鼓一样,”David Jones 回忆道,他是伦敦大学学院的生物信息学教授,曾在 Thornton 的指导下学习。如果会谈陷入细节困境,他们会跺脚。如果主张夸大,他们会跺脚。如果发言者重复或太过杂乱,他们也会跺脚。但 Jones 说,这是友好的跺脚:“并无恶意。”


图|早期的 CASP 会议在加利福尼亚州蒙特雷的阿西洛马会议中心举行。(来源:Aramark Destinations)


无论出于什么原因,当跺脚声开始在演讲者耳中回响时,这是令人尴尬的。“谢天谢地,我从未被跺过脚,”Jones 说道。有一年,他和他的同事们展示了一种称为穿线法(threading)的计算方法,即通过已知的蛋白质结构编织氨基酸序列,从而匹配起来。他们的表现还不错。“我们非常高兴……之后一切都走下坡路了,”Jones 回忆道,笑着说。“不,其实很有趣。”


帕多瓦大学生物信息学教授 Silvio Tosatto 说,当时我们都非常兴奋。“人们认为他们可以因为有了正确的算法而成为百万富翁,还有一些人认为他们会立即赢得诺贝尔奖。”


在早期,这些事情都没有发生。当被问及那段时间 CASP 提交的情况时,Moult 停顿了一下。“‘随机’是一个很好的词,”他说。


有些方法表现得比预期更好,比如“同源建模”(homology modeling),它通过比较已知蛋白质的结构来推断未知蛋白质的结构。其他方法则完全失败。大多数结构预测都是“看起来像被折磨过的物体,”Moult 说。


“我喜欢看到他们失败,”荷兰癌症研究所和乌特勒支大学结构生物学家 Anastassis Perrakis 开玩笑说,他将实验确定的结构提供给 CASP 组织者用于比赛。“这不是竞争,但我们喜欢在科学中相互调侃。”


在这个过程中,领导者出现了。1996 年,第二届 CASP 结束后,一个名叫 David Baker 的年轻人要求 Jones 一起打车去机场。Baker 看过 Jones 的演讲,正在开发自己的计算模型。他在这次 CASP 中没有准备好,但他想聊聊他的想法。Jones 在出租车上听了他的想法,没想到会再次见到他。


在 1998 年的下届比赛中,Baker 凭借他的算法 Rosetta 大放异彩。他成为“要击败的人,”Jones 说。


图|世界领先的蛋白质设计专家之一 David Baker(来源:BBVA Foundation)


像 Rosetta 这样的算法可以模拟氨基酸分子原子之间的相互作用,从而预测它们如何折叠。它们“表明你确实可以预测蛋白质结构,”Baker 说。“但它不够好或不够准确,无法实用。”


到 2008 年,计算机仍然无法击败人类。Baker 当时在华盛顿大学运营着自己的实验室,他创建了一款名为 Foldit 的免费在线计算机游戏,玩家在其中将氨基酸链折叠成蛋白质结构。在一篇发表于 Nature 上的论文中,他的团队报告说,Foldit 的人类玩家在蛋白质建模方面表现优于 Rosetta。


但人类的领先优势并没有持续太久。在 21 世纪 10 年代初,在一个被称为协同进化(co-evolution)的概念上取得的重要突破推动了该领域的发展,后来证明对人工智能至关重要。这个想法已经存在了几十年,非常简单直接:通过比较数百到数千种蛋白质中密切相关的氨基酸序列,科学家可以识别出发生突变的氨基酸——更重要的是,确定它们是否与其他氨基酸一起突变。如果两个氨基酸同时发生了变化,那么它们之间很可能存在某种联系。“你开始能够说,‘嗯,这两个东西在空间上可能靠得很近,’”伯克利实验室结构生物学家 Adams 说道。


图|蛋白质协同进化揭示结构。(Mark Belan)


但直到 21 世纪 10 年代,预测哪些氨基酸会发生接触的准确率都很低,仅在 20%-24% 之间。后来,科学家们注意到,他们的统计方法引入了错误,认为一些氨基酸在接触,而实际上它们并没有接触。Moult 后来了解到,统计学家们几十年来一直敏锐地意识到这种错误。回顾过去,他说,你会想,“我怎么会这么愚蠢?”


计算生物学家“清洗”了统计工具。到 2016 年,接触预测的准确率猛增到 47%。两年后,准确率达到了 70%。Baker 的算法建立在这一成功之上:2014 年,Rosetta 生成了两个蛋白质结构,其准确性让一位 CASP 评估者认为 Baker 可能已经解决了蛋白质折叠问题。


协同进化的见解是“了不起的,”Adams 说道。即使没有使用机器学习,协同进化也是“真正推动这一领域向前发展的重大成果之一”。


然而,这种方法只能将这个领域推进到一定程度。协同进化需要大量相似的蛋白质进行比较,而实验主义者解决蛋白质结构的速度还不足以满足计算主义者的需求。


Moult 使用了一个进化生物学的术语说,岁月在点状平衡中流逝。有时,感觉好像亿万年都没有什么好的想法——然后一些令人兴奋的事情就会发生。


第二部分:走向更深处


2016 年,David Jones 在 Nature 上发表的一篇新论文中瞥见了未来。来自 Google DeepMind 的研究人员详细介绍了他们的算法,这种算法使用了一种称为深度学习的方法,击败了一位围棋人类冠军。


Jones 惊叹不已。“事情正在发生,”他回忆当时的想法。“我真的要好好研究一下深度学习了。”


深度学习是一种人工智能方法,灵感来源于人类大脑。在你的大脑中,分子信息通过称为神经元的脑细胞相互连接的网络传递。神经元有被称为树突的小臂,它们可以抓住由邻近神经元发出的分子,这些分子会告诉接收的神经元,是否应该启动并传播信号。


“如果有足够的活动到达那个神经元,那么那个神经元就会触发,”布朗大学计算机科学教授 Michael Littman 说。这将导致另一波分子释放到下一个神经元。


20 世纪 50 年代,计算机科学家意识到他们可以将电子位(electronic bits)连接在一起,创建“神经网络”。神经网络中的每个单元是一个节点,研究人员将其比作神经元:一个神经元从其他神经元接收信息,然后计算是否向下一个神经元触发。在神经网络中,信息通过多层神经元传播,产生特定的结果,比如识别图像中的狗。


图 | 神经网络是如何工作的。(来源:Mark Belan)


神经元层数越多,人们能够执行的计算就越复杂。但早期的神经网络只有两层。在 20 世纪 90 年代,神经元层数增加到三层,这一数字停滞了二十年之久。“我们无法可靠地创建比这更深的网络,”Littman 说。


自 20 世纪 90 年代以来,包括 Jones 和 Moult 在内的结构生物学家一直尝试在蛋白质科学中使用神经网络,但浅层网络的限制和数据的稀缺让他们停滞不前。随后,在 21 世纪 10 年代初,计算机科学家们学会了如何更好地结构化神经网络,从而对更多层进行可靠的训练。神经网络的深度增加到 20 层、50 层、100 层,然后是数千层。“为了与我们在 90 年代的做法区分开来,人们开始称之为‘深度学习’,”Littman 说。


深度学习改变了人工智能,催生了在识别照片或声音特征方面表现出色的算法——事实证明,这些算法还能在游戏中击败人类。


2016 年 3 月,当 DeepMind 联合创始人 Demis Hassabis 在首尔观看他的人工智能系统 AlphaGo 在围棋比赛中击败人类世界冠军时,他回想起了在大学期间玩 Foldit 的经历。他想知道,既然 DeepMind 的研究人员能够编写出模仿围棋大师直觉的算法,难道他们不能编写出模仿 Foldit 游戏玩家(对生物学一无所知,却能折叠蛋白质)直觉的算法吗?


图|2016 年,AlphaGo 击败了围棋世界冠军李世石(右)。它模仿人类直觉的能力让生物学家注意到了深度学习在蛋白质科学中的潜在力量。(来源:Google DeepMind)


芝加哥大学丰田计算技术研究所教授许锦波,也认识到利用深度学习解决蛋白质折叠问题的潜力。他受到了这些网络在图像识别方面所做工作的启发。当时,计算机科学家已经在卷积网络方面取得了巨大成功,这种网络利用深度学习算法将图像分割成若干块,并识别它们之间的模式。他将这种技术带入了蛋白质折叠领域。他使用一种称为矩阵的数学术语来表示哪些氨基酸在空间上靠得很近,然后将数据作为图像输入卷积网络。该算法通过寻找这些图像之间的模式来预测组成氨基酸的原子的三维坐标。


2016 年,他在 arXiv 上发布了这项工作的预印本,Moult 说,这对该领域“相当有影响力”。它向人们展示了“你可以用深度学习做的事情”。


不久之后,各个蛋白质结构小组开始涉足深度学习。AlQuraishi 和他的团队第一个开发出了仅通过神经网络直接预测蛋白质结构的方法,即所谓的“端到端”方法——只是效果不是很好。其他人则想知道,他们如何尝试这种看起来如此重大的新方法。


“我不知道我想用深度学习做什么,但我意识到我需要做深度学习,”Jones 说。


他开始撰写资助申请以寻找方向,这时他收到了 Google DeepMind 的电子邮件。他们询问了关于 CASP 竞赛的情况并表示愿意提供帮助。“我只是以为他们的意思是:我们有很多计算能力,”Jones 说。


在他见到他们之后,很明显谷歌有更大的野心。但要实现这些野心,这家科技巨头需要更多的科学人才。


新玩家登场


2016 年,当 Jones 开始以顾问身份为 Google DeepMind 工作,负责一个后来被称为 AlphaFold 的项目时,John Jumper 正在芝加哥大学完成他的理论化学博士学位。


早在青少年时期,Jumper 就自学了计算机编程。他还擅长物理。因此,当他进入大学时,尽管父母都是工程师,担心他将来找不到工作,他还是决定学习数学和物理。


“我以为我会一直是一个研究‘宇宙法则’的物理学家,”Jumper 说。“我一直想要探索宇宙真理。”


图 |  John Jumper 本科学习物理和数学,后来找到了一份创建蛋白质计算机模拟的工作。这些经历为他领导 Google DeepMind 的 AlphaFold 项目奠定了基础。(来源:John Jumper)


在范德比尔特大学读本科时,他与费米国家加速器实验室的研究人员合作,研究一种被称为夸克的亚原子粒子的奇特性质。有一天,当他和研究人员一起吃午饭,得到了一个令人失望的消息。“所以,我们正在进行的这个实验——什么时候才能启动呢?”Jumper 回忆道。其中一个教授说,他可能会先退休,另一个年纪稍大的教授说,他可能活不到那一天。


“我想做一些时间跨度稍短的科学研究,”Jumper 说。完成本科学业后,他开始了一个理论凝聚态物理学的博士项目——并很快就退学了。他在纽约一家名为 D.E. Shaw Research 的公司找到了一份工作,这家公司当时正在进行基础的蛋白质模拟研究。通过了解蛋白质如何运动和变化,他们希望能够更好地理解各种疾病(如肺癌)的机制。


这是 Jumper 第一次意识到自己工作的潜在重要性。“这关系到健康和延长人们的寿命,”他说。在接下来的三年里,Jumper 在公司的超级计算机上模拟蛋白质的运动。“我在某个周的周二所做的模拟工作,比我整个博士期间要做的还要多,”他说。


2011 年,他再次攻读研究生学业,这次是在芝加哥大学学习理论化学。他仍然对蛋白质结构和运动感兴趣。但他对学术界的缓慢进展感到沮丧。“我不再拥有在 D.E. Shaw 使用的定制计算机硬件了,”Jumper 说。他想知道是否可以使用人工智能——“当时我们称之为统计物理学”——来达到仅靠高级机器才能实现的快速模拟水平。他开始涉足机器学习和神经网络。


在此期间,他也开始思考蛋白质折叠问题。他怀疑,这个问题是否可以通过蛋白质资料库中的训练数据解决——到 2012 年,该数据库已经包含了超过 76000 种蛋白质结构。


“我相信这些数据是足够的,”Jumper 说。但“想法还不够。”


2017 年,Jumper 听说 Google DeepMind 正在涉足蛋白质结构预测。当时他刚完成博士学位,利用机器学习模拟蛋白质折叠和动力学。他申请了一份研究科学家的工作。


“(当时)这个项目还是一个秘密,”他说。如果他在面试中提到蛋白质折叠问题, DeepMind 团队就会转移话题。“在我确定你在做什么之前,你只能重复这么多次,”Jumper 说。


2017 年 10 月,他来到 DeepMind 的伦敦办公室。在 Jones 作为顾问的帮助下,团队已经深入开发 AlphaFold。“那段时间非常有趣,我们只是不断提出各种想法,”Jones 说。“最终,一个好的核心想法浮现出来,他们就会全力推进。”


为了训练他们的算法,DeepMind 团队使用了蛋白质资料库中的超过 14 万多个结构。他们将这些信息输入卷积网络,但并没有对人工智能架构本身做太多改变。这是“标准的机器学习”,Jumper 说。


到 2018 年春天,AlphaFold 已经准备好加入 CASP,与真正的蛋白质科学家竞争。“这有点像一级方程式赛车,”Jones 回忆道。“你认为你已经造出了最好的车,但你不知道其他团队造出了什么。”这是一个很大的赌注。DeepMind 团队曾讨论过是否应该匿名参赛;他们不想冒着被羞辱的风险。


“没有人愿意失败,”Jones 说。在学术界,失败是工作的一部分;你失败了,你会继续前进,因为你别无选择。“但显然,如果你是一家市值数十亿美元的科技公司,如果你想做一件事却失败了,那就有点丢脸了。”


他们最终决定以 Google DeepMind 的名义提交结果。在会议召开的几个月前,Jones 听到了来自 CASP 组织者的消息。他们建议 DeepMind 团队参加会议,因为 AlphaFold 的表现非常出色。


他们并没有取得压倒性的胜利——在蛋白质结构预测方面比排名第二的团队好了约 2.5 倍——但他们的胜利给人们留下了深刻的印象。“显然,有趣的事情发生了,”Moult 说。


重启算法


这场胜利本该给 DeepMind 团队注入活力。但他们知道,他们还远未解决蛋白质折叠问题。几个月前,Hassabis 找到了他们。“我们要不要全力解决这个问题?”Jumper 回忆 Hassabis 的话。“如果不行,让我们找一些可以产生巨大影响的问题。”


“我们在那一刻真正决定:我们要全力解决它,”Jumper 说。于是,他们再次回到绘图板前。


凭借在物理、化学、生物和计算方面的多元化背景,Jumper 在头脑风暴会议上提出了一些独特的见解。很快,他开始领导团队,从 6 人发展到 15 人。“有一些非常独特的事情在发生,”Raphael Townshend 说,他曾于 2019 年在 Google DeepMind 实习,后来创立了一家由人工智能驱动的生物技术公司 Atomic AI。


在学术界,专家们常常各自追求独立的项目,缺乏合作。在 DeepMind,统计学、结构生物学、计算化学、软件工程等领域的专家们共同解决蛋白质折叠问题。他们背后还拥有谷歌庞大的资金和计算资源。“我作为博士生需要几个月才能完成的事情,现在一天之内就可以完成,”Townshend 说。


他说,DeepMind 的办公室充满了活力,其中大部分能量来自 Jumper。“他是真正的天才,而且非常谦逊,”计算机科学家 Ellen Zhong 说,“他深受团队的爱戴。”Ellen Zhong 曾于 2021 年在 DeepMind 实习,现在是普林斯顿大学的助理教授。


在 Jumper 的领导下,AlphaFold 被重新构建。DeepMind 设计了一种新型的 transformer 架构——在过去五年中“推动了几乎每一个机器学习突破”,Townshend 说。神经网络调整其连接强度,从而创建更准确的数据表示,在蛋白质折叠领域,就是蛋白质进化和结构数据。然后,它将这些数据通过第二个 transformer 来预测蛋白质的三维结构。随后,该算法通过将结构和部分修正的数据再通过 transformer 运行几次,进一步精细化该结构。


图|transformer 架构(来源:Mark Belan)


当他们刚开始研究 AlphaFold2 时,他们的算法“很糟糕,但没有预期的那么糟糕,”Jumper 说。“(它)制作了看起来有点像蛋白质的螺旋结构。”但随着他们进一步改进算法,他们注意到预测的效率和准确性都有了显著的提高。


“这其实很可怕,”Jumper 说。如果它表现得太好,通常意味着“你做错了什么。”他们进行了检查,但没有发现问题。它只是在有效地工作。


团队决定进行一次内部实验,看看他们的系统是否对生物学家有帮助。他们确定了大约 50 篇发表在 Science、Nature 和 Cell 等权威学术期刊上的论文,这些论文不仅描述了新的蛋白质结构,还从结构中揭示了蛋白质的功能。他们想看看 AlphaFold2 是否能够与实验学家的辛勤工作相媲美。


他们输入了氨基酸序列。AlphaFold2 运行其预测引擎。对于每个序列,它都可以输出接近论文中实验结构的预测。然而,在团队看来,这还不够准确。这些结构缺少实验学家从他们的蛋白质中学到的关键细节。“你感觉像是跑完了比赛,但发现自己还有另一半没跑完,”Jumper 说。


在接下来的六个月里,团队进一步改进了系统,逐步进行小幅改进。在 2020 年 CASP 竞赛的蛋白质候选名单发布前几周,他们又进行了一次实用性测试。Jumper 感到满意。Google DeepMind 在 2020 年春天将他们的预测结果提交给了 CASP。然后,他们开始等待结果。


行业大地震


初夏,Moult 收到了一封来自 CASP 评审员的电子邮件:“看看这个,真是令人印象深刻。”附件中是一个由 Google DeepMind 预测的蛋白质结构。Moult 确实感到印象深刻,但他认为这是个例。然后他又收到了一封接一封的邮件。“这很奇怪,”他回忆说。有三、四个,甚至一大堆几乎完美的蛋白质预测——全都来自 DeepMind。到夏末,“我们很快意识到……一件不寻常的事情发生了,”Moult 说。


CASP 评审员通过比较预测的蛋白质结构与其已证实的实验结构,对每份提交的材料进行评分。满分是 100 分,即模型与实际结构的原子一一对应。Moult 一直认为,任何高于 90 的分数都表明算法有效地解决了蛋白质的结构。来自 AlphaFold 的大多数结构得分都达到或超过了 90 分。


会议前几个月,Moult 打电话告诉 Jumper 这个消息。“我大声骂了出来,”Jumper 回忆道。“我妻子问我是否还好。”


2020 年 12 月,Jumper 在虚拟 CASP 会议上展示了 AlphaFold2。


对于任何不是神经网络专家的人来说,这些想法都很复杂。即便如此,结论是显而易见的。DeepMind 已经解决了蛋白质折叠问题中的结构预测部分。AlphaFold2 可以根据氨基酸序列准确预测蛋白质的结构。


“唉,我最喜欢的课题要没了,”Jones 回忆起当时的想法。“DeepMind 解决了这个问题,这是一个终结。”


多年来,Anastassis Perrakis 一直为 CASP 竞赛提供未发表的实验结果。当他看到 AlphaFold2 对他的团队为之付出汗水的一种蛋白质得出的结果时,他想,“哎呀。”AlphaFold2 完全正确地预测了结果。


科学家们一致认为,蛋白质科学的世界永远改变了。当他们展望新的前景时,他们都在思考一个问题:接下来该怎么办?


第三部分:震惊与敬畏


突然,结构生物学原本的范式被打破了。


起初,人们“进行了大量的自我反省,”Silvio Tosatto 说,他从 CASP 早期就参加比赛。一些结构生物学家担心他们的工作会变得过时。其他人则开始“自卫反击”,声称 AlphaFold2 并不准确。


计算生物学家一直在尝试解决这个问题,一些人已经努力了几十年,他们的感受是五味杂陈的。在 CASP 结束后写的一篇博客文章中,AlQuraishi 引用了一位参会者的话,形容他的感受就像孩子第一次离开家一样。


图|Mohammed AlQuraishi 希望,到 2040 年,深度学习能够模拟整个细胞及其内部的所有结构和动态。(来源:Nicole Pereira)


不过,即使在对这个新工具的担忧中,许多科学家也感到兴奋。那些不从事结构研究的科学家过去不得不与结构生物学家合作,从而确定他们更广泛实验所需的蛋白质结构。现在,他们只需按几个按钮就能自己获得结构。


在媒体报道方面,AlphaFold2 成为了“改变一切”的人工智能新突破。但科学家们花了几个月甚至几年的时间,才弄清楚 AlphaFold2 能做什么,不能做什么。在 Jumper 的演讲大约六个月后,Google DeepMind 发布了他们的结果并分享了 AlphaFold2 的底层代码。“在 AlphaFold2 发布后的第二天,我们就尝试将其安装到我们的 GPU 服务器上,”Perrakis 说。生物学家们开始尝试使用它。


“我以为(AlphaFold2)会失败,”Thornton 说。“但实际上,我的印象是它非常成功。”


图|Anastassis Perrakis 为 CASP 提供了实验蛋白质结构,计算生物学家在其上测试了他们的方法。(来源:Anastassis Perrakis)


人们开始意识到,AlphaFold2 不但不是一种威胁,反而是一种加速研究的催化剂。它不仅没有让结构生物学家失业,反而给了他们一个更好地完成工作的新工具。“如果你将结构生物学家视为仅仅是解析蛋白质结构的技术专家,那么是的,当然结构生物学家会失业,”Walden 说。但这就像说人类基因组计划使基因组学家过时了一样,因为他们不能再发表描述单个基因序列的论文。


在很多情况下,结构生物学家的目标是发现蛋白质的功能。使用 AlphaFold2,他们可以在几分钟内生成一个假设,而不必等待几个月或几年才能通过实验得出一个结构。


“这在很多方面改变了结构生物学,有好的方面,也有坏的方面,”Adams 说。“这只会让这个领域的工作变得更加令人兴奋。”


然而,它并没有像一些人预测的那样,立即催生各种新药的出现——研究人员很快就发现了这个工具的局限性。AlphaFold2 的预测并不完美。它们需要实验验证,Perrakis 说。但“你可以更快地进入结构的实际研究。”现在,当他的学生开始一个新项目时,他们首先使用 AlphaFold2 预测特定蛋白质的结构。然后他们进行实验以验证它。


Perrakis 怀疑,他和其他研究人员将继续在一定程度上使用 X 射线晶体学。但为了开发初始蛋白质结构,许多人开始将深度学习预测与高级电子显微镜技术(如冷冻电镜)结合使用,后者涉及快速冷冻生物样本并用电子轰击它们。然后,他们可以研究蛋白质的实际功能问题。AlphaFold2 已经“加速了”冷冻电镜的发展,AlQuraishi 说。


图|冷冻电镜如何工作。(来源:Mark Belan)


这种转变已经开始。2022 年 6 月,Science 特刊揭示了人类核孔复合体的近原子结构。这种由 30 种不同蛋白质构成的巨大而复杂的结构,困扰了生物学家数十年。科学家们利用 AlphaFold2 的预测填补了冷冻电镜未解决的蛋白质结构空白。


看到那些论文,即其他科学家使用 AlphaFold2 取得了生物学突破,这是“我真正意识到(AlphaFold)确实非常重要的时刻,”Jumper 说。


像核孔复合体这样的发现点缀了过去三年蛋白质科学的时间轴。AlphaFold2 已经预测了一些蛋白质结构,这些结构被用于研究疾病和开发新的药物递送工具。“这对我们帮助很大,”布罗德研究所分子生物学家 Feng Zhang 说,他使用 AlphaFold2 设计了一种分子注射器,用于将药物递送到人类细胞中。了解蛋白质的结构也可以帮助开发药物,例如,研究人员可以识别与蛋白质形状结合并改变其行为的分子。虽然有些研究表明,AlphaFold2 的预测在这一领域不如实验结构有用,但其他研究表明它们同样有效。人工智能工具对药物发现的全面影响仍在展开。


然而,一些生物学家已经不仅仅关注 AlphaFold2 在识别已知蛋白质的结构和功能上的应用,而是将目光投向设计自然界中不存在的蛋白质——这一技术对于设计新型药物至关重要。


下一个前沿


几乎在看到 Jumper 在 2020 年 CASP 会议上的演讲后,Baker 就重新开始了他的 Rosetta 算法的工作。谷歌当时还没有分享 AlphaFold2 的底层源代码。即便如此,“我们开始尝试他们提出的一些想法,”Baker 说。在 Google DeepMind 在 Nature上发表 AlphaFold2 的同一天,他和他的团队宣布了 RoseTTAFold,这是一种高度准确的 AlphaFold 竞争对手。RoseTTAFold 也使用深度学习来预测蛋白质结构,但其底层架构与 AlphaFold2 非常不同。


“一旦一种科学思想出现,至少有足够资源的人就可以逆向工程并尝试在其基础上进行构建,”Tosatto 说。


RoseTTAFold 并不是唯一的竞争对手。包括 Meta 在内的其他 AlphaFold 竞争者也设计了自己的算法来解决蛋白质结构预测或相关问题。一些公司,包括 Townshend 的生物技术初创公司 Atomic AI,已经扩展到蛋白质之外,使用深度学习来理解 RNA 结构。然而,在单一结构预测的准确性方面,目前这些竞争对手还无法匹敌 AlphaFold,Thornton 说。“我相信他们会做到,但我认为再出现一个……像 AlphaFold 这样的时刻将非常困难。”


图 | 去年,David Baker 与 John Jumper 和 Demis Hassabis 一起获得了生物学和生物医学知识前沿奖,以表彰他们在人工智能蛋白质研究和设计方面的革命性工作。(来源:BBVA Foundation)


至少在公开场合,Baker 和 Jumper 延续了 CASP 建立的富有成效的竞争传统。“他们可能觉得我在与他们竞争,但我觉得他们只是对我们具有启发性,”Baker 说。


Jumper 对此表示欢迎。“人们在这一科学基础上进行构建非常重要,”他说。“如果没有人沿着 AlphaFold 继续研究下去,我会感到难过。”


Baker 已经在扩展他的项目,将重点放在蛋白质科学的一个新领域:蛋白质设计。目前,生物学家只能研究自然界已经存在的蛋白质。Baker 设想了一种科学,能够设计新型蛋白质——专门用来利用阳光、分解塑料或成为药物或疫苗基础的蛋白质。


“目前自然界中不同类型的蛋白质结构或形状的数量相当有限,”荷兰 Hubrecht 研究所结构生物学家 Danny Sahtoe 说,他曾在 Baker 的指导下完成博士后研究。“理论上,应该有更多可能性,如果可以有更多的形状,那也意味着可以有更多的功能。”


蛋白质设计本质上是“逆蛋白质折叠问题,”Baker 说,他是华盛顿大学蛋白质设计研究所的主任。蛋白质设计师并不是将氨基酸序列输入深度学习算法,然后让它输出蛋白质结构,而是将结构输入算法,然后让它输出序列,然后利用该氨基酸序列,在实验室中构建蛋白质。


AlphaFold 和 RoseTTAFold 本身无法输出这些序列;它们被编程为执行相反的操作。但 Baker 根据 RoseTTAFold 的神经架构,创建了一个特定设计的迭代,称为 RoseTTAFold diffusion 或 RF diffusion。


Sahtoe 说,蛋白质设计领域已经存在很长时间,但深度学习加速了它。它使设计逼真的蛋白质计算机模型的过程“快得惊人”。以前,训练有素的蛋白质设计师需要数周或数月才能创建新蛋白质的骨架。现在,他们可以在几天内完成,有时甚至可以在一夜之间完成。


图|Foldit 是一款由 Baker 实验室开发的在线游戏,玩家可以预测蛋白质结构。


Baker 还更新了 Foldit,将他的执念融入其中:玩家们不再是构建蛋白质结构,而是设计蛋白质。收获颇丰。Baker 的实验室已经撰写了几篇关于玩家设计的蛋白质的论文。世界上最顶尖的 Foldit 玩家之一现在是 Baker 同事的一名研究生。


“我们了解蛋白质折叠吗?好吧,如果我们能够设计出折叠成新结构的新序列,那就表明我们对蛋白质折叠的理解相当深入,”Baker 说。“从某种意义上说,这也可以视为解决蛋白质折叠问题的一种方案。”


信任练习


不可否认,AlphaFold2 的成功改变了生物学家对人工智能的态度。长期以来,许多实验生物学家不信任计算技术。他们知道某些机器学习方法可以使数据看起来比实际更好。然后,Google DeepMind 证明了“你可以用这项技术做严谨的工作,”AlQuraishi 说。现在任何怀疑都伴随着这样的问题:“那么,AlphaFold 呢?” “现在生物学家相信我们的预测结果了,”推动卷积网络进步的计算生物学家许锦波说。“以前,生物学家总是怀疑我们的预测是否可靠。”


这种信任部分源于 AlphaFold2 平台的一个特点:它不仅生成蛋白质的三维模型,还通过对结构不同部分的置信度进行评分(从 0 到 100 )来自我评估预测的准确性。


2022 年 7 月,在 Google DeepMind 发布了 2.18 亿种蛋白质的结构预测结果(几乎包括了世界上已知的所有蛋白质)之后,Adams 决定分析 AlphaFold2 的自我报告。他将预测结果与蛋白质的已解结构进行了比较,并独立评估了其准确性。


“好消息是,当 AlphaFold 认为自己是对的,它往往是非常对的,”Adams 说。“当它认为自己不对时,它通常也不对。”然而,在 AlphaFold2 “非常有信心”的预测(置信度至少为 90 分)中,大约有 10% 的情况它不应该这么自信,Adams 报告说:这些预测与实验结果不符。


人工智能系统似乎具有某种自我怀疑,这可能会导致对其结论的过度依赖。大多数生物学家将 AlphaFold2 视为一种预测工具。但有些人却将 AlphaFold2 过于神化了。一些过去与结构生物学家合作的细胞生物学家和生物化学家已经用 AlphaFold2 取而代之——并将其预测视为真理。有时科学家发表的论文中包含的蛋白质结构显然是错误的,Perrakis 说。“他们说:‘那是 AlphaFold 的结构。’” 


图|Lauren Porter 研究可以改变构象的蛋白质,称为折叠转换蛋白质。它们“挑战了序列编码一种结构的范式”,她说,“因为它们显然不是。”(来源:Lauren Porter)


“有些人对这些深度学习模型的能力过于自信,”美国国立卫生研究院研究员 Lauren Porter 说。“我们应该尽可能多地使用这些深度学习模型,但也需要以谨慎和谦逊的态度对待它们。”


Jones 听说一些科学家正为获得资金而苦苦挣扎,他们希望通过计算确定结构。“普遍的看法是,DeepMind 已经做到了,你知道的,那你们为什么还在做?”Jones 说。但他认为这项工作仍然是必要的,因为 AlphaFold2 并非完美无缺。


“还有非常大的空白,”Jones 说。“有些事情它显然做不到。”


虽然 AlphaFold2 在预测小而简单的蛋白质结构方面表现出色,但在预测包含多个部分的蛋白质时,却不那么准确。它也无法考虑蛋白质的环境或与其他分子的结合,而这些都会改变蛋白质在细胞内的形状。有时蛋白质需要被特定的离子、盐或金属包围才能正确折叠。


“目前,AlphaFold 还无法联系上下文,”Walden 说。她的研究小组通过实验确定了几种 AlphaFold2 无法预测的结构。


还有几种动态蛋白质,AlphaFold2 预测得也不好,但它们在功能上也十分重要。折叠转换蛋白质并不是静态的:它们的形状随着与其他分子的相互作用而变化。有些蛋白质尽管具有相同的氨基酸序列,但会折叠成截然不同的形状。折叠转换蛋白质“挑战了序列编码单一结构的范式,”Porter 说,“因为显然它们并不是这样。”


与 DeepMind 算法训练的数十万种静态单一结构蛋白质相比,折叠转换蛋白质的例子只有大约 100 个——尽管肯定还有更多存在。Porter 说,这也许并不令人惊讶,“一般来说,这些算法是为了预测单一折叠而设计的。”


还有一些内在无序蛋白质或蛋白质区域缺乏稳定结构。它们不断摆动和重组。“它们在很多方面被忽视了,只是因为它们有点令人讨厌,”哥本哈根大学计算蛋白质生物物理学教授 Kresten Lindorff-Larsen 说。大约 44% 的人类蛋白质存在至少一个由 30 个氨基酸组成的无序区域。“这是一个相对较大的比例,”Lindorff-Larsen 说。


AlphaFold2 可以预测某个区域何时可能出现内在无序——但它无法告诉你这种无序是什么样子。


对 Jumper 来说,令人最沮丧的是 AlphaFold2 无法识别两个仅相差一个氨基酸(称为点突变)的蛋白质之间的区别。点突变有时会对蛋白质的结构和功能产生显著影响,“AlphaFold 对它们相对盲目,”他说,因为它会对这两种序列生成相同的结构。


2023 年 9 月,DeepMind 发布了 AlphaMissense,一种预测此类突变效果的深度学习算法。它无法显示结构的变化,但会根据已知致病蛋白质的类似突变,告知用户突变是否可能使蛋白质致病或导致功能障碍。


然而,即使 AlphaFold2 能够完美预测所有蛋白质,它仍远未能模拟生物现实。因为在细胞中,蛋白质从不单独行动。


细胞复杂性


细胞内部复杂而混乱。细胞的外膜包围着一个分子密集的生化环境——包括蛋白质、信号分子、信使 RNA、细胞器等。蛋白质与彼此以及其他分子结合,这会改变它们的形态和功能。


图|蛋白质不是单独起作用的:它们不断地与其他分子相互作用。(来源:Evan Ingersoll and Gaël McGill)


AlphaFold2 预测单个蛋白质结构的能力并不能让生物学家更接近理解蛋白质在这种复杂本地环境中的行为。但这正是该领域现在的研究方向。蛋白质科学领域的人工智能巨头 Google DeepMind 和 David Baker 的蛋白质设计研究所正在改进其深度学习算法,从而预测蛋白质在与其他分子相互作用时的结构。


2024 年春天,他们都发表了描述这一领域类似进展的论文。其算法的更新——以新名称 AlphaFold3 和 RoseTTAFold All-Atom 推出——使它们能够预测相互结合的蛋白质、DNA、RNA 和其他小分子的结构。


生物学家刚刚开始测试这些更新。到目前为止,AlphaFold3 比 RoseTTAFold All-Atom 要准确得多,AlQuraishi 说——但这并不是像“AlphaFold2 时刻”那样的巨大飞跃。对于一些大分子,如 RNA 结构,它的准确性仍低于其他基于物理的系统和实验。


图|AlphaFold3 可以预测分子复合物的结构,比如在一种破坏植物的真菌中发现的这种酶。在这个模型结构中,蛋白质(蓝色)与单糖(黄色)和离子(黄色球体)相连。(来源:Google DeepMind)


即便如此,这些新算法是朝正确方向迈出的重要一步。蛋白质与其他分子之间的相互作用对其在细胞中的功能至关重要。要想开发出能够对接到蛋白质并按需改变其活性的药物,研究人员需要了解这些复合物的外观。不过,Adams 说,这两种算法不太可能很快导致新药的问世。“这两种方法在准确性上仍然有限,(但)都比以前的可能性有了显著的改进。”


DeepMind 的新产品还有一个重大变化。AlphaFold2 的底层代码是开源的,以便其他研究人员可以研究该算法并将其用于自己的项目。然而,到目前为止,谷歌并没有分享 AlphaFold3 的源代码,而是选择将其作为商业机密加以保护。“至少目前,没人能像使用(AlphaFold2)那样运行和使用它,”AlQuraishi 说。


图|化学家、物理学家 Brenda Rubenstein 想出了如何创造性地使用 AlphaFold2 来预测她在布朗大学研究的蛋白质的多种构象。(来源:Melissa Shein)


即便在 AlphaFold3 发布之前,研究人员就已经在测试 AlphaFold2,以了解它是否能够提供不同构象下的蛋白质有用信息。布朗大学化学和物理学副教授 Brenda Rubenstein 对激酶(一种激活其他蛋白质的蛋白质)很感兴趣。具体来说,她想了解一种导致癌症的激酶的机制,以便开发更精确的抗癌药物。她的实验室使用基于物理的方法对激酶的结构进行了建模,该方法利用牛顿定律映射原子的三维坐标。这花了两年半的时间。


“大约一年前,我们说:我们能更快地完成这项工作吗?”Rubenstein 说。他们尝试以一种新颖的方式使用 AlphaFold2。通过向算法输入相关蛋白质的数据,她发现它可以以超过 80% 的准确率预测激酶在不同构象下的表现。


Rubenstein 的实验室是几个发现“如果以正确的方式使用 AlphaFold,它会吐出另一种构象”的实验室之一,AlQuraishi 说。“这令人鼓舞。”


AlQuraishi 希望,到 2040 年,深度学习将能够模拟整个细胞及其内部的所有结构和动态。然而,要实现这一目标,实验和计算两方面都需要取得飞跃。


其他人的看法


对许多生物学家来说,AlphaFold2 是他们期待已久的突破。CASP 的目标是创建能够根据序列预测蛋白质结构的计算工具。尽管如此,许多人还是忍不住问:为什么一个“相对新手”能够破解蛋白质编码,而这么多专家却挣扎了几十年?


Google DeepMind 的计算机和蛋白质科学家团队为这一问题带来的见解是不可否认的。同时,蛋白质科学的土壤也很肥沃,随时可以产生一场深度学习革命,AlQuraishi 说。“这些事情不会凭空出现。”


到 2020 年 CASP 时,许多研究人员都期望通过人工智能在结构预测方面取得突破。“一切都朝着那个方向发展,”Townshend 说。但他们没想到会来自一家市值数十亿美元的科技公司,也没想到会这么快。一些人说,AlphaFold2 并不是新的科学成就,而是巧妙的工程。一些人对 David Baker 的算法没有获胜感到惊讶。其他人则因为 Google DeepMind 拥有无与伦比的资源,而没那么惊讶。


每年大约有 100 个实验室参与 CASP,尽管他们已经开始采用人工智能技术,但“他们可能没有 DeepMind 那样的专业知识,也没有那样的计算能力,” Thornton说。DeepMind “基本上拥有无限的计算能力。”


她还推测,谷歌在蛋白质科学方面的经验缺乏,可能在创意上解放了他们。“他们专注于一个目标,” Thornton 说,专注于构建一个伟大的神经网络。蛋白质生物学家是有包袱的。当他们开发人工智能工具时,他们希望捕捉到蛋白质折叠中涉及的原子级分子物理和化学。DeepMind 采用了不同的方法:我们将序列数据转换为三维结构,不管我们如何到达那里。


“与其试图解决蛋白质折叠问题——我认为很多以前的预测都是这样做的——他们实际上只是用蛮力”绘制出原子在空间中的最终位置,Walden 说。“非常有趣的是,他们因此可能解决了这个问题。”


图|普林斯顿大学计算机科学家 Ellen Zhong 曾于 2021 年在 AlphaFold2 团队实习,她开创性地将深度学习与冷冻电镜结合来研究蛋白质动力学。(来源:Tori Repp)


对一些生物学家来说,这种方法并没有完全解决蛋白质折叠问题。从结构生物学早期开始,研究人员就希望了解氨基酸串如何折叠成蛋白质的规则。有了 AlphaFold2,大多数生物学家同意结构预测问题已经解决。然而,蛋白质折叠问题并未解决。“现在,你有一个黑箱,它能告诉你折叠的状态,但不能告诉你实际上是如何折叠的,” Zhong 说。


“它不是以科学家的方式解决的,”布朗大学计算机科学家 Littman 说。


这听起来可能像是“语义上的争执”,约翰霍普金斯大学生物物理学名誉教授 George Rose 说。“但当然不是这样。” AlphaFold2 可以基于其对数十万种蛋白质结构的分析,识别给定氨基酸序列可能如何折叠的模式。但它不能告诉科学家任何关于蛋白质折叠过程的信息。


“对于很多人来说,你不需要知道。他们不在乎,” Rose 说。“但科学,至少在过去 500 年左右……一直致力于尝试理解事物发生的过程。” Rose 认为,要理解基于蛋白质的生命的动态、机制、功能和本质,你需要了解完整的故事——一个深度学习算法不能告诉我们的故事。


对 Moult 来说,机器做一些他不理解的事情并不重要。“我们都习惯于机器做我们做不到的事情。你知道,我不能跑得像我的车一样快,”他说。对于分子生物学家来说,他们试图研究一种蛋白质,只需要知道它大致是什么样子,如何达到目的并不重要。


但是“直到我们真正了解它的工作原理,我们永远不会有一个 100% 可靠的预测器,” Porter 说。“我们必须理解基本的物理学,才能做出最明智的预测。”


“我们不断地追求新目标,”AlQuraishi 说。“我确实认为核心问题已经解决,现在非常关乎接下来会发生什么。”


即使生物学家继续争论这些话题,其他人也在展望一个无可否认已经改变的领域,并回顾其最近的过去。


有时,Perrakis 会怀念旧的方法。2022 年,他的团队描述了一种参与改变微管(提供细胞结构的巨大棒状分子)的酶,这些酶是通过 X 射线晶体学确定的。“我意识到我再也不会这样做了,”他说。“经过几个月的努力,第一个结构出现了,这让我感到非常满足。”


AlphaFold2 并没有使这些实验过时。相反,它揭示了它们的必要性。它将两个历史上截然不同的学科结合在一起,启动了一场新的、激动人心的对话。


新世界


Porter 说,七十年前,蛋白质被认为是一种凝胶状物质。“现在看看我们能看到的”:一个广阔的蛋白质世界的一个又一个结构,无论它们是存在于自然界还是被设计出来的。


蛋白质生物学领域“现在比 AlphaFold 之前更令人兴奋,” Perrakis 说。兴奋来自于以结构为基础的药物发现有望重获新生、创建假设的速度加快以及了解细胞内发生的复杂相互作用的希望。


“感觉就像基因组革命,” AlQuraishi 说。有这么多数据,生物学家们,无论是在他们的湿实验室里还是在计算机前,都刚刚开始摸索如何处理这些数据。


但是,就像世界各地的其他人工智能突破一样,这可能也会有一个天花板。


AlphaFold2 的成功基于训练数据的可用性——数十万种由耐心的实验学家精心确定的蛋白质结构。虽然 AlphaFold3 和相关算法在确定分子化合物的结构方面表现出了一定的成功,但其准确性仍然落后于前人的单蛋白质算法。这部分原因是可用的训练数据显著减少。


蛋白质折叠问题“几乎是人工智能解决方案的范例,” Thornton 说,因为该算法可以在以统一方式收集的数十万种蛋白质结构上进行训练。然而,蛋白质资料库可能是生物学领域有组织的数据共享的一个不寻常例子。如果没有高质量的数据来训练算法,它们就无法做出准确的预测。


“我们很幸运,” Jumper 说。“我们在准备解决问题时遇到了它。”


没有人知道,深度学习在解决蛋白质折叠问题上的成功是否会推广到其他科学领域,甚至生物学的其他领域。但有些人,比如 AlQuraishi,对此持乐观态度。“蛋白质折叠真的只是冰山一角,”他说。例如,化学家需要进行计算成本高昂的计算。使用深度学习,这些计算已经比以前快了一百万倍。


人工智能显然可以推动特定类型的科学问题的解决。但是,它可能仅仅能够将科学家带到某个程度的知识前沿。“历史上,科学一直是关于理解自然,” AlQuraishi 说。如果科学利用深度学习工具前进,这些工具揭示了解决方案而不是过程,那这还是科学吗?


“如果你能治愈癌症,你还在乎它是如何真正起作用的吗?” AlQuraishi 说。“这是一个我们在未来数年都要纠结的问题。”


如果许多研究人员决定放弃理解自然过程,那么人工智能不仅会改变科学——它还会改变科学家。


同时,CASP 的组织者们正在思考另一个问题:如何继续他们的竞赛和会议。AlphaFold2 是 CASP 的产物,它解决了会议组织所要解决的主要问题。“对我们来说,这是一个巨大的冲击:CASP 现在究竟是什么?” Moult 说。


2022 年,CASP 会议在土耳其的安塔利亚举行。Google DeepMind 没有参赛,但团队的存在感依然明显。“差不多就是人们在使用 AlphaFold,” Jones说。从这个意义上说,他表示,谷歌仍然赢了。


一些研究人员现在不太愿意参加了。“看到那个结果后,我转变了我的研究方向,”许锦波说。其他人继续改进他们的算法。Jones 仍然涉足结构预测,但现在更多是一种爱好。其他人,如 AlQuraishi 和 Baker,继续开发用于结构预测和设计的新算法,不畏惧与市值数十亿美元的公司竞争。


Moult 和会议组织者们正在尝试改变。下一轮 CASP 于五月开始接受报名。他希望深度学习能够征服结构生物学的更多领域,如 RNA 或生物分子复合物。“这种方法在这个问题上奏效了,” Moult 说。“在结构生物学中还有许多其他相关问题。”


下一次会议将于 2024 年 12 月在加勒比海举行。风是温和的,就像对话可能的样子。跺脚声早已消失——至少在公开场合。谁也无法预测今年的竞赛会是什么样子。Moult 只知道期待一件事:“惊喜。”


原文链接:

https://www.quantamagazine.org/how-ai-revolutionized-protein-science-but-didnt-end-it-20240626/



租售GPU算力
租:4090/A800/H800/H100
售:现货H100/H800

特别适合企业级应用
扫码了解详情☝


点「在看」的人都变好看了哦!

大数据文摘
普及数据思维,传播数据文化
 最新文章