David Baker,1962年出生于美国华盛顿州西雅图。1989年获美国加州大学伯克利分校博士学位。现为美国西雅图华盛顿大学教授。
Demis Hassabis,1976年出生于英国伦敦。2009年获得英国伦敦大学学院博士学位。Google DeepMind首席执行官。
John M. Jumper,1985年出生于美国阿肯色州小石城。2017年获得美国伊利诺伊州芝加哥大学博士学位。Google DeepMind高级研究科学家。
撰文 | 郭贝一、郭晓强
来源 | 《科学》杂志
基于神经网络原理构建的人工智能工具AlphaFold实现对蛋白质三维结构的精准预测,解决困扰生命科学60年的难题。这一突破推动基础研究快速发展的同时,还有望在新药研发和疾病治疗等多个领域发挥重要作用。
蛋白质是生命活动的物质基础,亦可看作生命的存在形式。蛋白质拥有广泛的生物学功能,包括结构组分(胶原蛋白)、催化功能(酶)、调节作用(激素)、物质运输(血红蛋白)、机械收缩(肌动蛋白)、机体免疫(抗体)等,进而参与几乎所有生命过程,如分子水平的DNA复制和转录、蛋白质翻译、物质与能量代谢等,以及细胞层面的精卵融合、细胞增殖和分化、细胞凋亡和坏死、细胞衰老和细胞通信等,其重要性不言而喻。
蛋白质结构研究
1819年,构成蛋白质的第一种氨基酸亮氨酸分离成功,1936年最后一个氨基酸苏氨酸成功鉴定,前后跨越100多年,这说明了蛋白质研究的艰巨性。
1953年,英国生物化学家桑格(F.Sanger)借助新出现的各种氨基酸和多肽分离方法和自己创造的氨基酸显色反应,确定了胰岛素两条多肽链的氨基酸序列,1955年又确定二硫键位置,获得1958年诺贝尔化学奖。
1957年,英国生物化学家肯德鲁(J.C. Kendrew)借助X-射线晶体衍射技术首次确定肌红蛋白三维结构,两年后他的同事佩鲁茨(M.F. Perutz)确定血红蛋白三维结构,两人分享1962年诺贝尔化学奖。通过这两项诺贝尔奖也可看出蛋白质结构研究的重要性,从成果取得到获奖只有3-5年。与此对应,作为分子生物学里程碑成果的DNA双螺旋结构解析则等待了9年(如提前认可,富兰克林的悲剧可能就可避免)。
蛋白质结构研究一直是诺贝尔化学奖青睐的对象,至今已颁发十余次奖项,既包括重要蛋白(或复合物)的解析,也包括新技术或新方法的突破,因此该领域长期来看是生命科学前沿和焦点。
1958 | 桑格(F.Sanger) | 胰岛素一级结构 |
1962 | 佩鲁茨(M.F. Perutz) | 球蛋白(血红蛋白和肌红蛋白)三维结构 |
肯德鲁(J.C. Kendrew) | ||
1972 | 安芬森(C.B. Anfinsen) | 一级结构决定高级结构 |
摩尔(S. Moore) | 核糖核酸酶一级结构 | |
斯坦(W.H. Stein) | ||
1982 | 克卢格(A.Klug) | 晶体电子显微镜发展 |
1988 | 戴森霍弗(J. Deisenhofer) | 光合反应中心的三维结构 |
胡贝尔(R. Huber) | ||
米歇尔(H. Michel) | ||
1997 | 沃克(J.E. Walker) | ATP酶三维结构 |
2002 | 芬恩(J.B. Fenn) | 质谱法测蛋白质一级结构 |
田中耕一(Koichi Tanaka) | ||
维特里希(K. Wüthrich) | 磁共振波谱研究蛋白质高级结构 | |
2003 | 麦金农(R. MacKinnon) | 钾离子通道三维结构 |
2006 | 科恩伯格(R. D. Kornberg) | 真核生物的转录结构 |
2009 | 拉马克里斯南(V. Ramakrishnan) | 核糖体三维结构 |
施泰茨(T. A. Steitz) | ||
尤纳斯(A. Yonath) | ||
2012 | 科比尔卡(B. Kobilka) | G-蛋白偶联受体结构 |
2017 | 杜博歇(J. Dubochet) | 研究蛋白质高级结构的冷冻电镜开发 |
弗兰克(J. Frank) | ||
亨德森(R. Henderson) |
随着许多蛋白质结构被解析,科学界考虑将这些信息进行存档以便利科研人员使用。1971年,在美国冷泉港实验室举办的一次蛋白质晶体学研讨会上,由布鲁克海文国家实验室汉密尔顿(W. Hamilton)倡导建立蛋白质数据库(Protein Data Bank, PDB),最初只包含7种蛋白质结构信息,是生命科学领域第一个开放获取的数字资源。磁共振波谱和冷冻电镜等新技术的发明和完善,大大加快了蛋白质结构解析的步伐,PDB内信息也得到了快速增长,2014年突破了10万种。然而这一数量相比已知的上亿种蛋白质显得微不足道,因此研究人员开始尝试用理论方法直接由初级结构获取高级结构信息[2]。
蛋白质结构预测
1961年,美国生物化学家安芬森(C.B. Anfinsen)借助核糖核酸酶变性-复性实验得出结论:蛋白质初级结构决定高级结构(安芬森定律)。安芬森定律清晰地说明蛋白质空间结构并非随机形成,而是根植于氨基酸的线性顺序,该定律成为蛋白质结构预测的理论基础。安芬森在1972年诺贝尔奖获奖感言中提出一个愿景:将来有一天仅从氨基酸序列就能预测任何蛋白质三维结构。从蛋白质初级结构预测高级结构的过程较为复杂,是结构生物学和理论生物学领域最具挑战性的课题,它吸引了众多科研人员前赴后继尝试解决这一难题。
蛋白质结构预测主要有两种策略,基于模板建模(template-based modeling, TBM)和无模板建模(template-free modeling, FM)[3]。TBM又称同源建模,它利用新蛋白质初级结构与PDB中已有三维结构蛋白质的氨基酸序列比对结果为基础构建模型,并进一步完善,准确性取决于新蛋白质和PDB中蛋白质的进化距离,如果PDB缺乏新蛋白类似结构域的已知结构,则无法生成准确模型。FM又称从头计算方法,利用能量函数计算氨基酸空间相互作用,最终从所有可能结构中选取最佳形式,依靠分子动力学模拟获得蛋白质折叠方式,该法对小分子量蛋白质结构预测还算准确,但随着蛋白质复杂性增加逐渐变得无能为力。
人工智能发展
智能,又称智力,是人类所特有的复杂认知能力并在此基础上进行学习形成概念、理解和应用逻辑以及推理等。AI则是利用计算机或机器人模拟人类智能完成一系列复杂任务的过程,如推理等。
1950年,英国数学家图灵(A.M. Turing)在论文“计算机和智能”中首次讨论建造智能机器和测试智能的方式,赋予机器借鉴人脑信息加工、理性设计和科学决策的能力,奠定了AI的理论基础。1956年,在美国达特茅斯举办的学术会议上,麦卡锡(J. McCarthy)首次提出AI一词,并相信将来会制造出像人类思考和推理的机器。在随后的时间里,AI取得了一系列重要进展,特别是进入21世纪以来更是突飞猛进,智能水平日趋强大,这里重点介绍机器学习(machine learning, ML)。
机器学习是人工智能的分支,主要基于数据进行算法开发和研究,通过学习已有数据而推广到新数据,从而可在无明确指令情况下执行任务,进一步发展出更高级的深度学习(deep learning, DL),可在尽量减少人工干预的前提下实现对非结构化数据(如文本或图像)的学习,在视觉加工、语言处理和语音识别等领域得到了广泛应用。
深度学习的研究历史可追溯到1943年,美国神经生理学家麦卡洛克 (W. S. McCulloch)和年轻逻辑学家皮茨(W. H. Pitts)构建出第一个基于模拟人脑的神经网络(neural network)模型,它可以基于神经元的活动特性进行简单的逻辑运算。神经网络由多层结构组成,包含输入层、一个或多个隐藏层和输出层。只有三层的称为基本神经网络,三层以上的为深度神经网络,是深度学习的基础。
天才少年
哈萨比斯(D. Hassabis)出生于英国伦敦,童年就展现出过人天赋。4岁时,哈萨比斯就能熟练掌握国际象棋技巧并战胜父亲和叔叔,13岁成为国际象棋大师,并在国际比赛中与成年人对弈。哈萨比斯还表现出与年龄不相称的逻辑运算天赋,8岁时应用电脑进行游戏编程,随着年龄增长,他决定将计算机应用于更高级的智力比拼,因此希望从事人工智能方面的工作。17岁时,他设计并编程了销量数百万、屡获殊荣的游戏《主题公园》。
1994年,哈萨比斯进入剑桥大学学习,3年后以年级第一名的成绩获得计算机学士学位。1998年,哈萨比斯创立电子游戏公司Elixir Studios,先后创作出《共和国:革命》、《邪恶天才》等多款畅销游戏。
人机对战的巨大成功促使哈萨比斯决定进一步挑战自身,这次不再关注游戏,而是生物学问题。哈萨比斯利用AI解决生物学问题的想法由来已久,但苦于找不到理想切入点而迟迟未能启动,蛋白质结构预测无疑是一个最佳选择。DeepMind为此成立了一个开展蛋白质结构预测的小团队,由于蛋白质空间结构的形成主要通过折叠(fold)方式完成,该团队开发的人工智能系统被命名为AlphaFold。
AlphaFold的首次突破
AlphaFold采用深度学习基础上的FM 预测策略, 共三个系统。首先是建模系统, 利用神经网络和强大运算能力基于能量最低原理预测蛋白质内各氨基酸残基之间的空间距离, 产生一系列结构片段(类似二级结构), 初步组装出三维结构;其次是优化系统, 对建模结构进行再计算的重复操作以提升精确度;最后是输出系统,产生最终三维结构。
2018年,AlphaFold参与了第13届CASP竞赛,牛刀初试就技压群雄,毫无争议地荣膺冠军宝座,复杂蛋白GDT平均达到60分,成功预测出给定的43种蛋白质中的25种,第二名仅预测出3种[6]。这项成就使哈萨比斯的工作第三次荣膺《科学》周刊评选的年度十大进展之一。
AlphaFold尽管较传统方法有较大突破,但仍存在诸多不足,如预测结果精确度尚待提高,距离90分以上(完美预测)仍有较大差距;预测结构平均分辨率为0.66纳米(大于0.3纳米仅显示蛋白质链轮廓),与实验方法所得最佳分辨率0.1纳米(原子半径尺度,这种程度下可清晰展示单个原子位置)也存在上升空间。
DeepMind公司决定改进AlphaFold系统,但经过6个月尝试后却远远未达预期,不得不开始重新调整思路,首先进行人事变动。
江珀(J.M. Jumper)出生于美国阿肯色州小石城,2007年在范德比尔特大学获得理学学位,随后在奖学金资助下进入剑桥大学攻读理论凝聚态物理学博士学位,但不久发现对此并无太大兴趣,因此选择退学并加入一家从事蛋白质结构计算机模拟的公司,工作中逐渐对理论生物学产生浓厚兴趣。2011年,江珀重新回到学校,进入芝加哥大学跟随著名理论化学家弗里德 (K.F. Freed)和索斯尼克(T.R. Sosnick)攻读理论化学博士,将机器学习策略用于蛋白质动力学研究。2017年,江珀毕业获得博士学位,获悉Deepmind公司正在开展蛋白质结构预测方面研究,投递申请后很快得到答复,当年10月加入公司,成为蛋白质结构预测小组的重要成员。
AlphaFold2再度完善
江珀带领年轻团队对AlphaFold最初版本进行了重新梳理,在此基础上展开全面调整和改进,对每个细节给予挖掘以期达到尽善尽美。比如,他们引入空间立体结构和进化理念、整合已有蛋白质结构的详细信息如原子半径和键角等、完善机器有效学习策略以利于从有限数据中提取最大信息,特别是抛弃传统算法的束缚,更强调空间靠近而非线性相邻等。没有任何一种改进对最终结果有决定性影响,但正是这些奇妙新想法的完美结合,才最终实现真正意义的突破。
深度学习过程中,研究者使用PDB中已有的17万种蛋白质结构信息进行训练。AlphaFold2反复将预测结果与真实结构进行对比,使二者之间逐渐接近,最终使系统吸收并完全掌握蛋白质折叠原理。AlphaFold2还能对预测结构给出可信程度,类似于考试估分,数值越高意味着与真正结构差距越小。AlphaFold2成功的另一因素是DeepMind强大的运算能力,这是绝大多数学术团体和小公司都难以达到的目标。
AlphaFold2的发展和应用
AlphaFold2解决了蛋白质结构预测问题,目前虽无法做到尽善尽美,但大多数情况下对非结构解析专业的普通研究者而言已经足够。尤为重要的是,当研究人员获得感兴趣蛋白质序列时能够在几天甚至几小时内获得完美结构信息,而不再需要数月甚至数年时间和数百万美元的花费,对生命科学研究而言,就是难以置信的突破。
当然,AlphaFold2有不足之处,比如,对内在无序结构(它们在相分离等多个过程发挥重要作用)的预测效果较差。因为最初的设计目标是对单个蛋白质结构进行预测,但蛋白质发挥作用时往往是以复合物或小分子结合状态存在,为此,Deepmind公司和其他研究团队又开发出其他版本作为补充,如AlphaFold Multimer和RosettaTTAFold等。
AlphaFold2已展示出强大的蛋白质结构预测能力,2021年完成人类所有蛋白质的结构预测;2022年7月,获得2亿多种蛋白质的预测结构,并已进入数据库供免费使用[9,10]。Deepmind公司最近推出AlphaFold3版本,可高准确度和高精度预测蛋白质复合物、蛋白质-核酸、蛋白质与小分子配体等三维结构[11],进一步加大适用范围。
在基础研究领域,原来研究新蛋白功能需要依赖于X-射线衍射或冷冻电镜,高昂的费用和技术门槛使大多数实验室望而却步,目前该问题得到了有效解决。联合AlphaFold2和冷冻电镜成功解析核孔复合物结构这一成果对理解细胞核内外物质进出机制具有重要意义。
深远影响
蛋白质结构预测的突破可归因于天时、地利和人和的共同结果。天时上,高速发展的人工智能和层出不穷的新方法是AlphaFold的理论基础,PDB中快速增加的蛋白质结构是深度学习的材料基础;地利上,背靠谷歌公司强大的运算能力;人和上,公司聚集了一批富有朝气和探索精神的年轻人,以及哈萨比斯与江珀卓越的领导才能和创新能力,成功也就水到渠成。
近年来,AI在如火如荼地快速发展,取得一系列重大突破,如ChatGPT、Sora等,其智能程度逐渐提升,正在改变着人类的生活方式和科研的研究模式。AlphaFold无疑是优秀代表之一,可看作是AI发展的一个缩影。
AlphaFold解决了困扰生命科学多年的一个重大难题,并有望为其他生物学问题解决提供借鉴。大数据已成为当前科学发展的重要特征,如基因组测序结果和海量论文等,借助AI工具解决生命科学问题已成为一个重要方向。AlphaFold成功的另一层意义在于激励年轻人要敢于挑战自我。
AlphaFold2的成功也为哈萨比斯和江珀两位科学家带来众多科学荣誉。他们先后分享威利生物医学科学奖 (2022年)、生命科学突破奖(2023年)、 盖尔德纳国际奖(2023年)、拉斯克基础医学研究奖(2023年)等[12],也将是近几年诺贝尔自然科学类奖的热门人选。
致谢:本文获得周耀旗老师重要建议,在此表示诚挚的感谢。
参考文献
[1] Sklar J. QnAs with Demis Hassabis and John M. Jumper: Winners of the 2023 Albert Lasker Basic Medical Research Award. Proc Natl Acad Sci USA 2023, 120(39):e2313816120.