本文5600字,建议阅读11分钟 本文一文详解David Baker的学术与产业成就。
David Baker 开源了 RoseTTAFold、RFdiffusion 和 ProteinMPNN 等深度学习工具,赋能新型蛋白质的设计,同时还以成立公司的方式推动技术的产业化落地,作为创始人身份直接参与 21 家公司的发展,涉及领域包括疾病治疗、食品生产和材料科学等。
要说谁是引领蛋白质设计的世界级大师,美国华盛顿大学的 David Baker 教授可谓是当之无愧,作为该领域的顶级专家,Baker 在蛋白质方向发表研究论文 700 余篇,引用量累计超 17.7 万。今年 10 月,因其在蛋白质设计方面的卓越贡献,Baker 还被授予 2024 年诺贝尔化学奖,他在学术界的影响力可见一斑。
然而,Baker 的影响力远不止于此。在工业界,他的名字同样如雷贯耳。据华盛顿大学蛋白质设计研究所官网显示, 由 Baker 作为创始人直接参与的公司就有 21 家。今年 4 月,他联合创办的 AI 制药企业 Xaira Therapeutics 不仅吸引了 2022 年诺贝尔化学奖得主 Carolyn Bertozzi 的加盟,更是获得 10 亿美元的巨额融资,占据全球 Q2 融资榜首位,连红杉资本、ARCH Venture Partners 等投资界的巨头也纷纷为其背书。
David Baker,一个在学术界桃李满天下,又在工业界取得非凡成就的科学家,他的成长历程和成功秘诀究竟是什么?
庆祝 David Baker 获诺奖
图源:Institute for Protein Design
从兴趣出发,集合全世界力量攻克难关
David Baker 于 1962 年 10 月 6 日出生在美国华盛顿州西雅图的一个犹太家庭,父母分别是物理学家和地球物理学家,尽管如此,Baker 最初对科学并不感兴趣,他在哈佛大学本科阶段主修哲学和社会研究,但如今回想起来,他认为「那完全是浪费时间,很多谈话都毫无意义。」
大学的最后一年,Baker 选修了发育生物学课程,在这里,他见证了一个神奇的实验:加入蛋白变性剂后,RNA 酶失去了切割 RNA 的活性,但当溶液中的变性剂被蒸发后,RNA 酶的活性竟奇迹般地恢复了。蛋白质是如何在一瞬间自主找到正确的构象并发挥功能?这种对科学问题明确答案的追求,比哲学的模糊性更让他感到兴奋。于是,他开始阅读《细胞分子生物学》这本经典教材,并对生物学愈发着迷。
之后,Baker 加入诺贝尔生理学或医学奖得主 Randy Schekman 的实验室,在 1989 年获得了加州大学伯克利分校的生物化学博士学位。
博士毕业后,Baker 进入加州大学旧金山分校 David Agard 教授的实验室,开始了他的博士后研究。在那里,他尝试用计算机解析晶体结构,并萌生了用计算机预测蛋白质结构的想法。「我博士后期间所在的结构生物学实验室里有一间专门用于解析晶体结构的房间,每个人都在计算机终端前忙碌,将氨基酸链与电子密度图进行匹配。我坐下来,试着做了 3 分钟,感到头痛欲裂。这让我意识到,我做不来这样的事,我想要用计算机去做一些更有意义的事情。」
带着这个问题,1993 年,Baker 回到家乡西雅图的华盛顿大学,开始研发一种能够根据氨基酸序列预测蛋白质结构的软件,也就是后来备受欢迎的 Rosetta。此外,Baker 还在华盛顿大学遇到了他的夫人 Hannele Ruohola-Baker,Hannele Ruohola-Baker 是华盛顿大学的一名生物化学教授,两人共育一儿一女。
左侧为 Baker 和 Hannele Ruohola-Baker
1998 年,Rosetta 正式发布。基于物理学原理,Rosetta 可以对蛋白质的构象进行能量最小化计算,以预测最稳定的三维结构,即接近自然状态下的蛋白质稳定构象。为了验证 Rosetta 在蛋白质结构预测中的表现,Baker 团队积极参与了 CASP 竞赛。在该竞赛中,参赛者会对一批蛋白质结构进行盲测预测,这些蛋白质的结构已经通过实验解析但尚未公开,以此评估不同算法的准确性。此后,Rosetta 逐渐在 CASP 中崭露头角,在 2004 年的 CASP6 上更是创造了历史,针对目标蛋白 T0281,Rosetta 首次实现了接近原子级精度的 ab initio 蛋白质结构预测,一度成为蛋白质结构预测领域的领导者。
Rosetta 地址:
然而,更准确的预测意味着更多计算资源的消耗。「我们开始做蛋白质结构预测时,发现这项工作需要大量的计算资源。我们不断购买新计算机,不仅花费巨大,而且很快就没有足够的空间来放置它们。因此,我们启动了 Rosetta@home 项目,邀请全球各地的人们用他们闲置的算力来进行蛋白结构计算。这是一个屏幕保护程序,当计算机进行计算时,屏幕上会显示正在折叠的蛋白质。」Baker 表示。
现如今,Rosetta 已在学术和工业环境中得到了广泛采用,成为结构生物学和药物发现的标准工具,为了持续改进 Rosetta 软件,Baker 还特意创建了一个学术社区——Rosetta Commons,这个社区汇聚了来自全球 60 多个机构的学者,涵盖化学、生物学、生理学、物理学、工程学、数学和计算机科学等多个领域,每年,社区都会举办会议,成员间互相分享成果,交流想法,如今,Rosetta Commons 已成为一个大规模的国际合作项目。
Rosetta@home 地址:
https://boinc.bakerlab.org/
Rosetta@home
从 Rosetta@home 项目中得到启发,Baker 深刻认识到「人海战术」的重要性,想要在一个未知领域快速得到突破性进展,合作共赢才是长久之道。2008 年,Baker 的团队正式推出 Foldit,这是一款关于蛋白质折叠的在线益智游戏,专业人士和非专业人士都可以参与。Baker 表示:「我们的梦想是,世界各地的人们共同努力,为科学和全球健康做出重大贡献。」
在 Foldit 中,玩家使用游戏中的工具尽可能完美地折叠选定的蛋白质结构,得分最高的方案将由研究人员分析,评估其在现实中的适用性,进而应用于靶向治疗等。值得一提的是,Foldit 吸引了超过 40 万人参与,一些玩家还被列为 Baker 论文中的贡献者。比如,2011 年被 Nature 录用的一篇论文中,Foldit 的玩家就帮助破解了 M-PMV 逆转录病毒蛋白酶的晶体结构,这种病毒已经困扰科学家长达 15 年,而玩家仅用 10 天就构建出了足够准确的酶 3D 模型,以成功进行分子替换和随后的结构测定。
Foldit 地址:
https://fold.it/
Foldit
此后多年,Rosetta 和 Foldit 在蛋白质结构领域备受欢迎,如果按照这种趋势持续发展下去,今年诺贝尔化学奖的另一半「蛋白质结构预测方面的贡献」可能就不会授予 Demis Hassabis 和 John Jumper 了,一切的转折点出现在 2020 年底。
用开源回应 AlphaFold2
在 2020 年 11 月举行的第 14 届 CASP 大赛中,AlphaFold2「横空出世」,作为当年入选 Science 年度十大突破的重大成果,AlphaFold2 预测蛋白质结构准确性直接碾压其它所有团队,Baker 团队带来的 Rosetta 也「望尘莫及」。主办方更是直接宣布,AlphaFold 2 成功解决了一个困扰科学家 50 年的难题。
第一位 AlphaFold2,第二位 Rosetta
与 Rosetta 更侧重于基于物理原理的方法、通过计算能量最小化来预测蛋白质结构不同,AlphaFold2 将深度学习与物理、生物等相关领域知识结合,实现了端到端的蛋白质三维结构信息预测,这一成果在科学界引起了巨大震动,被誉为蛋白质研究的里程碑。然而,DeepMind 当时并未公开 AlphaFold2 的具体细节。
对此,Baker 表示,「所有人都惊呆了,先是有很多媒体报道,然后就没消息了,我们的领域取得了重大进展,但自己却不能在此基础上继续发展,这很奇怪。」
和他的老师 Randy Schekman 一样,Baker 崇尚的是科学的开源、共享,当初他的老师选择对三大期刊「宣战」,Baker 则立志研发一个能够与 AlphaFold2 媲美的开源模型。
图源:维基百科
借鉴 AlphaFold2,Baker 和实验室的其他成员一起努力了数月,发布了深度学习模型 RoseTTAFold。RoseTTAFold 采用独特的三轨 (three-track) 神经网络架构,能够同时考虑蛋白质的序列模式、氨基酸相互作用以及可能的三维结构,其中,一维、二维和三维信息相互流动,使神经网络能够推理出蛋白质的化学组成与其折叠结构之间的关系。利用 RoseTTAFold,研究人员计算了数百种新的蛋白质结构,包括人类基因组中许多未知的蛋白质,他们还生成了与人类健康直接相关的蛋白质,比如与炎症疾病和癌细胞生长相关的蛋白质。
值得一提的是,RoseTTAFold 的计算耗能和时间都低于 AlphaFold2,只需一块 RTX 2080 显卡,就能在短短 10 分钟内计算出 400 个氨基酸残基以内的蛋白质结构。研究人员指出,「如果不使用这类软件,一个科学家团队可能需要几年时间才能确定一种蛋白质结构。」Baker 明白,是时候公开 RoseTTAFold 了。
RoseTTAFold 开源地址:
https://github.com/RosettaCommons/RoseTTAFold
2021 年 6 月,Baker 公布了详细介绍 RoseTTAFold 技术路线的预印版论文。几天后,DeepMind 首席执行官 Demis Hassabis 在推特上宣布,他们将公布 AlphaFold2 的论文和源代码。同年 7 月 15 日,RoseTTAFold 和 AlphaFold2 的相关论文分别发表于 Science 和 Nature,Science 杂志还将 RoseTTAFold 和 AlphaFold 共同评为 2021 年度突破技术,这场学术界与商业界的 PK 终于完美结束。
图源:Demis Hassabis 社交平台
做有挑战的事!将深度学习引入蛋白质设计
今年诺贝尔化学奖的消息公布后,相关人员对 Baker 进行了简短的电话采访,当被问及如何看待 RoseTTAFold 和 AlphaFold 的相互竞争关系时,Baker 表示,他自己从未觉得和 DeepMind 是竞争对手。
Baker 获诺贝尔奖后接受线上采访
图源:华盛顿大学蛋白质设计研究所
「多年来,我们一直在开发基于物理的蛋白质结构预测和设计方法。但当 John 和 Demis 开发 AlphaFold2 时,我深刻认识到了深度学习的力量,他们是深度学习力量的伟大启发者。」当然,借助这股力量,Baker 不仅将深度学习用于蛋白质结构预测上,推出了 RoseTTAFold,还将其用于蛋白质设计上。
Baker 的学生沈浩认为他的老师「有一种勇于创新、迈大步往前走的劲儿」,专注于做重要且极具挑战的事情,比如,设计全新的蛋白质。在 Baker 看来,人类面临许多新的紧迫问题,因寿命延长而产生的新疾病、环境污染等,如果等待自然进化来解决问题,可能需要数百万年时间,但通过蛋白质设计,我们可以迅速开发出解决当前问题的新蛋白质。
事实上,很早之前,Baker 的团队就想到,既然可以将氨基酸序列输入 Rosetta 来预测蛋白质结构,那么是否可以反向使用软件,输入一个期望的蛋白质结构,得到相应的氨基酸序列建议,并将设计的序列基因引入细菌中,使细菌生产出所需的蛋白质?
基于此,2003 年,Baker 的团队成功设计出世界上第一个全新蛋白质 Top7,这个突破性发现极大地鼓舞了相关领域的研究。
同样地,在意识到深度学习对于蛋白质设计的巨大潜力后,Baker 也开始思考:反向使用深度学习是否可以为设计功能性新蛋白质生成氨基酸序列?围绕此课题,他带领团队研发了一系列成果。
Baker 曾在 Nature 期刊发表了一篇题为「De novo design of protein structure and function with RFdiffusion」的论文,研究人员在蛋白质结构去噪任务中对 RoseTTAFold 结构预测网络进行微调,开发了一个生成模型 RFdiffusion,该模型在蛋白质结合剂设计、酶活性位点支架设计等方面表现出色,更重要的是,模型具备极好的通用性,且已开源。
RFdiffusion 项目地址:
https://github.com/RosettaCommons/RFdiffusion
与此同时,为了拓展 RFdiffusion 的能力,Baker 还开发了一种基于深度学习的蛋白质序列设计方法 ProteinMPNN,ProteinMPNN 将蛋白质结构作为输入,1 秒即可生成能折叠成对应骨架的新氨基酸序列。结合像 RFdiffusion 这样的结构生成工具,它可以用于设计具有前所未见的序列、结构和功能的蛋白质。此外,研究还表明,在天然蛋白质骨架上,ProteinMPNN 的序列恢复率为 52.4%,而过去基于 Rosetta 的物理设计仅为 32.9%。该研究以「Robust deep learning–based protein sequence design using ProteinMPNN」为题,被 Science 录用。
ProteinMPNN 项目地址:
https://github.com/dauparas/ProteinMPNN
此外,Baker 的团队还对前面提到的结构预测工具 Rosetta 和 Foldit 进行了优化,通过在软件内引入新的模块和算法,两者不仅仅局限于蛋白质结构预测,还拓展到了抗体设计、酶设计和小分子对接等方面。对此,Baker 表示,「Foldit 最初创建时是做蛋白质结构预测的,但是现在已经转向了蛋白质设计。我们会不断为玩家更新关卡,随着我们研究兴趣的改变,它也会不断变化。」
Baker 课题组合影
将 AI 技术与物理方法结合,Baker 的实验室创造了许多新型蛋白质,例如能够中和病毒、靶向癌细胞,甚至作为化学反应催化剂的蛋白质。此外,Baker 还在设计能与无机材料结合的蛋白质,探索利用蛋白质调控无机晶体生长的可能性,这一研究有望应用于半导体制造等领域。
以成立公司的方式推动技术落地
Baker 的老师 David Agard 曾评价,「David Baker 的工作几乎一手推动了蛋白质设计领域的发展。」确实如此,2024 年还未结束,Baker 就已经发表了 110 余篇论文,这些成果数量相当不可思议。但更令人惊讶的是,每当 Baker 认为他所研究的技术基本成熟时,就会成立一家新公司、或者投入过往创立的公司来孵化,进而推动技术的产业化落地。据华盛顿大学蛋白质设计研究所官网显示,Baker 作为创始人直接参与的公司就有 21 家,此外,他还以顾问的身份参与其他公司的运营。
图源:华盛顿大学蛋白质设计研究所
David Baker 任创始人/联合创始人/科学联合创始人
具体来说,今年 4 月刚成立的 Xaira Therapeutics 公司就应用了前面提到的 RFdiffusion 和 ProteinMPNN。该公司致力于通过新兴的 AI 技术重新设计和开发药物,由斯坦福大学前校长 Marc Tessier-Lavigne 博士担任首席执行官,Baker 为联合创始人。值得注意的是,Baker 实验室的几位科学家也全职加入了 Xaira。
Xaira 通过整合分子与人体疾病相关生物学特征的海量数据,可以高质量训练模型。此外,公司还建立了工业化干湿实验平台,能够通过实验室测试蛋白质对特定细胞靶标的粘附程度,并评估稳定性等关键属性。所得数据被快速反馈到蛋白质模型中,从而实现分子设计的下一次迭代。
Xaira 官网:
https://xaira.com/
2023 年成立的 Archon Biosciences 致力于通过生成式 AI 设计一种全新的生物药物类型——抗体笼 (Antibody cage, AbC),AbC 将 AI 设计与结构控制融合,可完全控制抗体方向、结合域化合价、大小、形状和刚度,这种结构控制可实现精确的生物分布和 target engagement on cells,结合内部的临床数据,能够快速验证抗体的有效性。该公司获得了英伟达等多家公司的支持,所用技术源于 Baker 在 2024 年诺贝尔化学奖中获得认可的成果。
Archon 官网:
https://www.archon.bio/
Baker 展示蛋白质纳米笼
除此之外,Monod Bio 公司今年 7 月份推出了世界上第一个完全从头蛋白质产品,即用于生命科学研究和诊断的荧光素酶 LuxSit™ Pro。对此,Baker 表示:「这是生物学和计算机科学的一个重要里程碑,相信在未来几个月或几年内,我们会看到更多从头设计的蛋白质转化为成熟的商业产品。」该技术源自 Baker 2023 年在 Nature 上发表的一篇论文。
还有 2009 年成立的 Arzeda、2014 年成立的 Cyrus Biotech 以及 2018 年成立的 A-Alpha Bio 等公司,都积极引进了 Baker 最新研发的 AI 技术,希望研发更多的新型蛋白质,用于制造新的药物、疫苗、疾病疗法,甚至是新的材料。
Arzeda 官网:https://arzeda.com/
Cyrus Biotech 官网:https://cyrusbio.com/
A-Alpha Bio 官网:https://www.aalphabio.com/
从最初的哲学探索到现在的蛋白质设计「魔法师」,Baker 的每一步都充满了对未知的渴望和对创新的执着。他一贯坚持合作共赢才是长久之道,并用开放与分享的精神激励全球无数研究人员和科学爱好者投身该领域的发展。他的研究成果不仅在学术界取得了巨大突破,还从实验室走向了工业界,赋能疾病治疗、食品生产,材料科学等多个领域,为人类生活带来了更多的可能。
参考资料:
1.https://news.bioon.com/article/9068e156469f.html
2.https://news.qq.com/rain/a/20241010A02IB300
3.https://zh.wikipedia.org/zh-cn/Rosetta@home
4.https://www.ipd.uw.edu/2021/07/rosettafold-accurate-protein-structure-prediction-accessible-to-all/
5.https://news.qq.com/rain/a/20241010A04VNA00
6.https://m.thepaper.cn/newsDetail_forward_28994096
7.https://www.nobelprize.org/prizes/chemistry/2024/baker/interview/
8.https://finance.sina.com.cn/tech/roll/2024-10-10/doc-incsarnm2004532.shtml
9.https://news.qq.com/rain/a/20241011A02XB000
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU