机器学习彻底改变了蛋白质设计。
研究人员可以使用 RFdiffusion 和 Chroma 在笔记本电脑上生成新的蛋白质结构;可以使用 ProteinMPNN 等算法识别与该结构匹配的序列;RoseTTAFold 和 AlphaFold 可以根据序列计算结构,预测新蛋白质是否可能正确折叠......
其所带来的变革性力量也受到了诺贝尔委员会的认可:2024 年诺贝尔化学奖授予研究和设计蛋白质的计算工具的开发者。
近日,《自然》杂志采访了一些专家,探讨了蛋白质设计面临的最大挑战以及如何克服这些挑战。
蛋白质相互作用
蛋白质设计面临的挑战之一是预测蛋白质如何相互结合,因为特定蛋白质的“结合物”可以作为激活或抑制疾病途径的药物。
RFdiffusion 和 AlphaProteo 等生成式 AI 模型使其变得简单。David Baker 表示,他和团队开发了 RFdiffusion 和其他蛋白质设计工具。
对于大多数蛋白质,生成式人工智能软件可以生成像手一样精确包裹目标的粘合剂。例如,2023 年,David Baker 和他的同事使用 RFdiffusion 创建了传感器蛋白,当它们附着在特定肽激素上时会发光。但诸如遍布免疫细胞表面的跨膜分子等蛋白质仍然难以破解。
预测蛋白质-蛋白质相互作用的算法之所以成功,是因为所有天然蛋白质都由相同的 20 种氨基酸组成。蛋白质数据库 (PDB) 中已有数十万种结构和蛋白质-蛋白质相互作用。
但训练模型的数据如果过少,结果会不可靠,用于结合药物和其他小分子的蛋白质就是这种情况。许多制药公司都有自己的小分子结构数据库以及它们如何与蛋白质相互作用,但这些都是严格保密的。伦敦谷歌 DeepMind 的计算生物学家 Jue Wang 说,现有的公开数据并不总是有很好的注释,而且可用的结构往往只代表少数几个分子类别。“用这个模型训练,你可能不一定能学到关于化学的良好一般规则。”他说。
今年早些时候,DeepMind 发布了AlphaFold3,它可以预测蛋白质与小分子的结合如何影响其形状。该公司表示:“对于蛋白质与其他分子类型的相互作用,与现有预测方法相比,我们的预测精度至少提高了 50%,对于一些重要的相互作用类别,我们的预测精度提高了一倍。”
但 Baker 表示,这一难题尚未完全解决,某种物质结合良好并不意味着它会按预期发挥作用,结合蛋白可以激活或阻断其靶标。慕尼黑大学的生物物理化学家 Khmelinskaia Alena表示,AlphaFold 等程序不一定能分辨出两者的区别。
生成式人工智能系统还有其他局限性,包括产生自然界中不存在的蛋白质结构。哥伦比亚大学计算生物学家 Mohammed AlQuraishi说,人工智能“总是试图取悦别人,它永远不会说‘不,这不可行’。”
Generate Biomedicines 的计算机科学家 John Ingraham 表示,更好地了解生物物理学可能会有所帮助,但有关蛋白质如何与分子结合的更多更好的数据也会有所帮助。他的公司正在通过强力手段攻克这一难题,尽可能多地使用有关蛋白质相互作用和功能的数据,并将其与由他们的模型生成的设计高通量数据相结合。
追求新的催化剂
科学家们对计算工具设计出全新功能的酶寄予厚望:例如,可以从大气中清除二氧化碳的催化剂;可以有效分解环境塑料的酶。
相似的蛋白质形状并不一定意味着相似的功能,外观完全不同的酶也有可能执行相同的任务。“找出这些联系以及如何重建功能是蛋白质设计的一个重大挑战。”AlQuraishi 说。
天然酶不一定是新活动的理想起点,但可以为从头设计提供信息,哈佛医学院系统生物学家 Debora Marks 表示:“大自然已经为你做了数十亿次进化实验。”
通常,研究人员通过分析酶在不同物种之间的相似程度来确定酶的哪些部分是重要的。进化保守的序列通常具有相似的结构。
但 Ingraham 表示,酶的哪些部分重要并不是立即显而易见的。例如,看似无用的氨基酸链可能会影响蛋白质与其他分子的结合紧密程度或其在构象状态之间转换的能力。
一些研究人员正在开发寻找这些有用部分的方法。在 8 月份的预印本中,Baker 和他的同事利用 RFdiffusion 创建了一组水解酶,这些酶通过多步骤过程利用水来破坏化学键。研究人员利用机器学习分析了酶的哪些部分或基序在每个步骤中处于活性状态。然后,他们复制了这些基序,并要求 RFdiffusion 围绕它们构建全新的蛋白质。当研究人员测试了 20 种设计时,他们发现其中两种能够以新的方式水解底物。
不过,首尔国立大学计算生物学家 Martin Steinegger 警告称,将活性位点移入新的蛋白质环境可能很棘手。蛋白质是动态变化的,孤立的基序可能会与其目标结合。
蛋白质构象变化
蛋白质的构象会根据温度、pH、化学环境以及它们是否与其他分子结合等因素而发生变化。
然而,研究人员通过实验往往只能看到最稳定的构象,而这不一定是蛋白质在活跃时所呈现的形式。微软研究院的机器学习科学家 Kevin Yang表示,要真正了解蛋白质的工作原理,研究人员需要了解其潜在运动和构象的全部范围——PDB 中不一定收录的形式。
计算蛋白质可能移动的所有方式是极其困难的,即使对于超级计算机来说也是如此。加州大学旧金山分校的生物工程师Tanja Kortemme 表示,一个含有 100 个氨基酸的蛋白质至少可以呈现 3100 种可能的构象。“我们对物理学的理解相当不错,但将其融入其中受到我们需要计算的可能性数量的限制。”
机器学习可以帮助缩小范围,微软和其他公司正在开发加快寻找蛋白质构象所需计算的方法。但人工智能模型受到缺乏良好训练数据的限制。
Kortemme 表示,该领域正在通过设计大量蛋白质库(包括天然和合成的)并对其进行变异以揭示其动态来解决这个问题。例如,她、Baker 和其他人正在研究可以通过添加某些结合伙伴在两种构象之间手动切换的蛋白质。这样的设计蛋白质不仅可以帮助训练 AI 模型,还可以作为更复杂的分子机器的构建块,例如将化学能转化为机械能以完成细胞工作的酶。
其他团队已经开发出算法(例如AF-Cluster),在预测中注入一定程度的随机性,以探索替代构象。但 Steinegger 表示,这些方法是否适用于所有蛋白质类别仍不清楚。
蛋白质模块化组装
酶并不是研究人员唯一关心的蛋白质类别。新蛋白质还可以作为构建模块使用,例如通过自组装成将货物运送到细胞中的结构、产生物理力或展开阿尔茨海默氏症等疾病中错误折叠的蛋白质。
已被获批的 COVID-19 疫苗就是第一种由计算设计的蛋白质制成的医疗产品。其可引发针对 SARS-CoV-2 病毒刺突蛋白的免疫反应。在临床试验中,该疫苗产生的抗体水平是商业疫苗的三倍,Khmelinskaia 说,它的成功表明计算蛋白质设计已准备好应用于现实世界。“现在真的有可能开始针对许多以前不可能实现的有趣途径。”
Khmelinskaia 的实验室正在使用机器学习算法来开发空心纳米粒子,这种粒子可以携带药物或毒素进入细胞或隔离不需要的分子。“这需要了解设计蛋白质的构象动力学,因为粒子及其有效载荷需要能够穿过细胞膜,然后打开(或关闭)。”
但这只是其中一种功能。对于细菌鞭毛等更复杂的结构,机器学习能做得有限。这意味着研究人员需要考虑逐个开发分子机器的组成部分,并通过这些组件的灵活组合来实现最终的设计目标。
从错误中学习
目前为止,即使是最好的预测算法也离一次性生成准确蛋白质还有一段距离。
计算研究人员可以反复运行他们的算法,直到找到看起来可行的东西。像 Steinegger 这样的算法设计团队大约每三四个月就会有新的创新。据他估计,在生物系统中验证设计的蛋白质可能需要两年时间,到那时软件已经向前发展了。
这种不匹配意味着算法很少有机会从错误中学习。研究人员往往不会发表负面结果,即使这些失败可能带来有用的信息,例如蛋白质在特定条件下的细胞毒性或稳定性。除非科学资助模式发生根本性变化,以激励这种披露,否则研究人员必须发挥创造力。Khmelinskaia 提到蛋白质设计研究的实验和计算两个方面时解释说:“要建立一个实际上能够同时涵盖所有这些方面的团队极其具有挑战性。”因此,合作是必须的。
“我们正处于计算机资源和数据都已准备好的阶段,这就是为什么它成为了如此受欢迎的领域,大家齐心协力,将创造更大的成果。”Kevin Yang 说道。
参考链接:
1.https://www.nature.com/articles/d41586-024-03595-9