前面还在感慨2024年的诺贝尔物理学奖把目光延伸到了AI领域,没想到2024年的诺贝尔化学奖继续发扬“理综奖”的特色,而且不约而同地聚焦在人工智能领域;前面还在说数据驱动是理解世界的另一种方法,已经在预测蛋白质结构等领域发挥着重要的作用,2024年的诺贝尔化学奖就颁给了利用人工智能进行蛋白质结构预测、蛋白质设计方面的科学家!
北京时间9日傍晚,2024年诺贝尔化学奖公布,一半授予大卫·贝克,“以表彰在计算蛋白质设计方面的贡献”;另一半则共同授予德米斯·哈萨比斯和约翰·M·詹珀,“以表彰他们在蛋白质结构预测方面的成就”。
一、蛋白质的发现历程
蛋白质是人体的必需营养素,是一类化学结构复杂的有机化合物,氨基酸是组成蛋白质的基本单位。生命的产生、存在和消亡都与蛋白质有关,蛋白质是生命的物质基础,是生命活动中头等重要的物质。
蛋白质的发现历史可以追溯到18世纪,最早从面粉中分离出来。1742年,意大利科学家贝卡利将面粉团不断用水洗,从中分离出了谷蛋白(洗剩的面筋),这被认为是世界上最早的蛋白质分离方法。
1839年,荷兰科学家穆德首次提出“蛋白质”的概念,并认识到各种蛋白质均含有大约16%的氮。1883年,丹麦化学家凯耶达尔发明了通过测定氮来推算食物中蛋白质含量的方法(凯氏定氮法),并一直沿用至今。
19世纪末,德国科学家费歇尔证明了蛋白质由氨基酸组成,并将氨基酸合成了多种短肽。随后人们逐渐发现,自然界中几十万种功能各异的蛋白质,都是由不同氨基酸通过不同的数量比例和排列顺序经由肽键连接构成的。
科学家进一步研究发现,蛋白质由20种氨基酸呈念珠状连接形成三维形状,而形状本身决定了蛋白质的功能,所以研究蛋白质形状一直是科学研究的热门方向。世界上许多重大的挑战,比如发展疾病的治疗方法或者找到分解工业废物的酶,从根本上来说都与蛋白质及其所扮演的角色有关。
但在过去,要得到某种蛋白质的形状需要花费数年的时间。从1950年代开始,使用X射线束照射结晶的蛋白质并将衍射光转化为蛋白质原子坐标的技术,确定了蛋白质的第一个完整结构。此后,人们不断改进技术,包括用发明的低温电子显微镜等来探测蛋白质的结构,但各种方法都依赖于进行大量试验和改进错误,可能需要花费数年的工作时间来完成每个蛋白质结构,并需要使用数百万美元的专门设备来进行试验和验证。
1969年,塞勒斯·莱文塔尔指出,用暴力计算法列举一个典型蛋白质的所有可能构型所需的时间比已知宇宙的年龄还要长,他估计一个典型蛋白质有10300种可能构型。
克里斯蒂安·安芬森
1972年,克里斯蒂安·安芬森在诺贝尔化学奖的获奖感言中,提出了一个著名的假设:理论上来说,蛋白质的氨基酸序列应该完全决定其结构。这个假设引起了长达五十年的探索,即仅仅基于蛋白质的1D氨基酸序列就能够计算预测蛋白质的3D结构。然而,这个假设面临的一个主要的挑战是,理论上蛋白质在进入最终的3D结构之前可以折叠的方式数量是一个天文数字。
1980年代和1990年代,尽管早期计算机科学家已经取得了进展,但是从蛋白质的组成中推断结构仍非易事。
二、从围棋到蛋白质结构预测
许多人认为围棋是世界上最复杂的棋盘游戏,用机器和人进行围棋比赛,这本身就是一件非常吸引眼球的大事。2016年,这场“世纪人机大战”吸引了全世界的目光。韩国围棋选手李世石与AlphaGo进行了三场比赛。最终AlphaGo以 3:0的战绩获得胜利。AlphaGo背后的英雄、Google旗下人工智能企业DeepMind的创始人就是这次获得诺贝尔化学奖的德米斯·哈萨比斯。
在庆祝AlphaGo取得胜利的同时,哈萨比斯已经将目光聚焦在一个更加复杂的难题上——如何预测蛋白质的结构。在他的心目中,AlphaGo还主要是游戏的性质,他希望利用人工智能来引导通用学习系统,并应对现实世界的挑战,致力于像蛋白质折叠这样的科学挑战。
在自然界中,蛋白质是氨基酸链,可以自发折叠成无数令人难以想象的形状,有些甚至在几毫秒之内完成。为了了解蛋白质如何折叠,DeepMind的研究人员在一个包含约170,000个蛋白质序列及其形状的公共数据库中对其算法进行训练。
AlphaFold解决蛋白质折叠问题的方法
1994年,John Moult教授和Krzysztof Fidelis教授创立了被称之为“蛋白质结构预测奥运会”的CASP比赛,2年举办一次,CASP是评估预测技术的标准。更重要的是,CASP 选择那些最近才经过实验确定的蛋白质结构(有些在评估时仍在等待确定)作为研究小组测试其结构预测方法的目标;而这些结构的预测方法并没有提前公布。参与者必须直接预测蛋白质的结构,这些预测随后会在可用时与实验数据进行比较。
2018年,DeepMind官宣了旗下的AlphaFold。初亮相时,它在第13届CASP比赛中,成功预测了43种蛋白质中25种蛋白质的最准确结构,力压其他97个参赛者。随后又在《自然》杂志上发表了一篇关于CASP13方法及相关代码的论文,这篇论文继续启发了其他工作和社区开发的开源实现。
2020年,DeepMind又祭出了AlphaFold2。它能够在广泛领域进行蛋白质结构的预测,已经将两亿多蛋白的三维结构全部都预测出来,使之能够达到前所未有的精确度。这些方法的灵感来自生物学、物理学和机器学习领域,当然还有过去半个世纪许多蛋白质折叠领域的科学家的工作。这在结构生物学中是最重要的里程碑的贡献,对后续蛋白质结构及功能研究具有开创性意义。也是此前人们不敢想象的工作。
2024年5月,研究团队隆重推出AlphaFold3,以前所未有的精确度成功预测了所有生命分子(蛋白质、DNA、RNA、配体等)的结构和相互作用。还可以将我们从蛋白质带入广泛的生物分子领域,这一飞跃有望开启更具变革性的科学——从开发生物可再生材料和更具抗逆性的作物,到加速药物设计和基因组学研究,进而开启人工智能细胞生物学的新时代。
从头设计出一个蛋白质
AlphaFold一直存在诸多竞争者,其中最为知名的莫过于华盛顿大学的大卫·贝克团队。
贝克是预测和设计蛋白质三维结构方法的开创者,早在1998年由他主导设计的蛋白结构设计算法Rosetta就有了最初版本,远远早于AlphaFold。
大卫·贝克
在Rosetta诞生的过程中,大卫还有许多意料之外的收获。尽管Rosetta的设计经过优化,但预测蛋白质折叠所需要的运算量依然巨大。最开始,大卫只能通过不停购置新的电脑设备来扩大计算力,后来,新买的电脑把实验室的空间占满了却依然无法满足他们的需求。迫于这样的压力,大卫和他的学生们想出了一个绝妙的解决方案——借助互联网,邀请世界各地的人们用他们计算机的闲置算力来帮助进行计算。同时,他们还开发了一款游戏,让全世界对蛋白折叠感兴趣的人能够发挥他们的才华,参与到蛋白质折叠的解谜游戏中。一些该游戏的高级玩家还曾通过这款游戏破解了一种逆转录病毒的蛋白结构,并将成果发表在了《自然》杂志子刊上。
虽然大卫最初的研究方向也是预测蛋白质的结构,但在这个方向上取得突破之前,他已着手向另一个截然相反且更具挑战性的领域——“蛋白质的从头设计”发起了冲击。相比于预测蛋白质的结构,从头设计出一个蛋白质需要向弄清蛋白质折叠的原理再迈进一步。这要求科学家们能根据一个具有特定形状的蛋白,倒推出其DNA序列。
从某种意义上讲,从头设计蛋白,要比预测蛋白结构难上几个数量级。假设要设计一个由100个氨基酸组成的蛋白质,每一种氨基酸又有20种截然不同的可能,使将得可能的氨基酸序列总数高达20的100次方。这个数字究竟有多大?它比整个宇宙中原子的总数还要多!
2003年,大卫的团队设计出了第一个原本并不存在于自然界中的蛋白质,它被命名为Top7。接下来的几年时间,大卫的团队对Rosetta进行了更多的优化。如今,大卫的实验室,以及他的合作伙伴们已能设计出多种不同的蛋白,有朝一日,人类完全获得“上帝之手”的能力将不再是梦想。
2020年,大卫因“开发的技术让人们可以设计大自然中从未见到过的蛋白”获得了素有“科学界的奥斯卡”之称的科学突破奖——生命科学科学突破奖。
作为蛋白质从头设计的先驱者,大卫希望通过“蛋白质设计革命”开启一个全新的时代,我们将学会使用一种前所未有的方式来操控生物分子,例如从头设计出全新的药物、疫苗、疾病疗法等,拓展新药研发的边界。
AI变革科学发现的历程,可能真的刚刚开始
在哈萨比斯看来,通过AI,将科学加速到极致,并且认为自己已经发现了一种“让科学研究更有效率”的方法。在他眼中,人工智能系统正变得足够强大,可以应用于许多现实世界的问题,包括科学发现本身。他认为,有一天,人工智能系统可能会解决像广义相对论这样的问题。
“癌症、气候变迁、能源、基因组学、宏观经济学、金融系统、物理学等,太多我们想掌握的系统知识正变得极其复杂,如此巨大的信息量让最聪明的人穷其一生也无法完全掌握。如何才能从如此庞大的数据量中筛选出正确的见解呢?”他认为,未来超级智能机器将与人类专家合作解决一切问题,一种通用人工智能可以自动将非结构化信息转换为可使用知识,这是一种针对任何问题的元解决方法(meta-solution)。
当前,在各个领域,应用人工智能方法分析数据、构建复杂生物现象的强大预测模型和生成模型,已然成为强大的科技创新潮流。AI变革科学发现的历程,可能真的刚刚开始。