Science | ESM3: 借助语言模型再现蛋白质5亿年的进化奇迹

学术   2025-01-21 00:02   韩国  

DRUGAI

超过三十亿年的进化塑造了自然蛋白质空间中生物学的图景。在此,研究人员展示了通过大规模进化数据训练的语言模型能够生成远离已知蛋白质的功能性蛋白质。研究人员提出了ESM3,这是一种前沿的多模态生成语言模型,可以推理蛋白质的序列、结构和功能。ESM3能够响应复杂的多模态提示,并通过对齐显著提升模型的精确性。研究人员利用ESM3生成了荧光蛋白。在合成的生成产物中,研究人员发现了一种亮度高且与已知荧光蛋白相距较远(序列同一性仅为58%)的荧光蛋白,研究人员估算这相当于模拟了五亿年的进化过程。

现存的蛋白质是经过数十亿年的自然进化,通过无数次变异和筛选逐步形成的。在漫长的地质时间中,自然通过随机突变和选择压力对蛋白质的序列、结构和功能进行过滤,从而塑造出今天的多样性。这些进化过程蕴含的深层生物学变量通过蛋白质的模式展现出来。


随着基因测序技术的发展,大规模数据正在记录地球自然界的蛋白质序列和结构,揭示了生命多样性中的变化模式。研究表明,蛋白质序列背后隐藏着一种可以用语言模型解析的生物学“语言”。基于蛋白质序列的语言模型已经证明,这些模型能够在不依赖任何监督的情况下,学习蛋白质的生物学结构和功能,并随着模型规模的扩大而性能提升。


在此,研究人员提出ESM3,一种前沿的多模态生成模型,能够推理蛋白质的序列、结构和功能。ESM3作为生成式掩码语言模型,通过离散标记表示三种模态的信息,而非使用复杂的三维结构建模方式。这种可扩展的离散标记方法使ESM3能够响应多模态组合提示,生成符合提示要求的可控蛋白质。实验表明,ESM3对提示的响应性极高,能够创造性地解决复杂提示组合,并生成在自然界中未见的独特蛋白质结构。


通过ESM3,研究人员成功生成了一种绿色荧光蛋白的变体,其与现有蛋白质的差异程度相当于模拟了超过5亿年的进化过程。这一成果展示了语言模型在探索蛋白质演化中的巨大潜力。


ESM3

ESM3是一种可扩展的生成模型,通过语言建模实现对蛋白质三大基本属性——序列、结构和功能的建模。传统的蛋白质生成模型多聚焦于单一模态,使用复杂的结构建模方法将蛋白质表示为三维对象。相比之下,ESM3通过离散标记表示三种模态的属性,并将它们作为单独的序列轨迹输入和输出,在模型中融合为共享的隐空间。这种简单化设计使得ESM3能够利用可扩展的Transformer架构,在高达980亿参数和超过一万亿计算量的条件下进行训练,从而实现复杂推理能力。

ESM3采用生成式掩码语言建模目标,通过随机掩码处理蛋白质的标记,并预测被掩盖标记的身份。训练过程中,掩码比率会动态变化,使模型能在不同模态的组合下进行预测。相比传统的掩码语言建模方法,ESM3在所有可能的掩码比率下进行监督,从而实现标记生成的灵活性和顺序无关性。


模型的生成过程基于标记的逐步采样,从完全或部分掩盖的上下文开始,以任意顺序逐步恢复所有位置。高掩码比率增强了生成能力,而低掩码比率则提升了表征学习能力。ESM3采用平衡的噪声调度以兼顾这两种能力。


ESM3使用离散自动编码器对蛋白质结构进行标记化,能够将三维结构压缩为离散标记,同时实现原子级别的精确重建。此外,模型引入了一种不变几何注意力机制,通过局部结构参考帧和全局帧的交互高效处理三维结构。为了支持高级结构抽象,还包括次级结构和溶剂可及表面积的标记轨迹。功能相关的关键词和残基级注释也被嵌入到网络中,丰富了蛋白质的功能表示。


ESM3训练数据涵盖27.8亿天然蛋白质序列、2.36亿蛋白质结构及5.39亿带功能注释的蛋白质,总计7710亿独特标记。模型在三个规模下进行训练:14亿、70亿和980亿参数,较深的网络架构显著提升了模型的性能。在测试中,ESM3的代表学习性能优于现有模型,其生成的序列和结构在多样性和质量上均表现出色。


结果表明,基于语言建模的扩展方法,通过标记化、高效架构及掩码标记预测,显著改善了模型的生成与表征能力。随着计算和数据规模的增加,ESM3有潜力学习更加丰富且通用的特征空间,并在蛋白质的可控生成方面展现高精度能力。


基于ESM3的可编程蛋白质设计

ESM3能够响应由不同输入轨迹(包括序列、结构坐标、次级结构SS8、溶剂可及表面积SASA以及功能关键词)组成的复杂提示。这种多模态提示设计支持从原子级结构到描述功能和折叠拓扑的高层次关键词等不同抽象层级的控制。


ESM3对每种轨迹的提示单独进行了评估,通过对天然蛋白质测试集的提示生成结果,考察其生成的序列与结构是否与提示一致。结果显示,ESM3在所有轨迹上的提示生成都能遵循提示,生成的结构在ESMFold评估中具有高置信度(pTM > 0.8)。尽管某些生成可能无法完全恢复功能关键词,但其结构仍表现出高度的预测置信度。

通过构造来自训练集分布之外的提示(如从人工设计的对称蛋白中提取的次级结构提示),ESM3生成了具有高置信度但与训练集蛋白序列和结构显著不同的蛋白质(序列相似性<20%,TM得分<0.52),表明其能够生成高度新颖的蛋白质。


ESM3能够组合不同轨迹和抽象层次的提示,例如同时解决原子级提示(如催化中心或配体结合位点)和高层次提示(如次级结构或功能关键词)。实验中发现,ESM3能以创新方式解决这些提示组合,生成的蛋白质在逆折叠和重折叠评估中表现出高设计性(pTM 0.80±0.08;scTM 0.96±0.04)。


在尝试对天然蛋白酶(如胰蛋白酶)进行压缩设计时,ESM3在减少序列长度的同时保持了活性位点的协调性(全原子RMSD 0.73Å)及整体折叠的设计性(pTM 0.84),展现了模型在特定限制下进行合理设计的能力。


以上实验表明,ESM3能够通过生成模型在提示与生物复杂性之间架起桥梁,实现从高层次拓扑到原子坐标的多级控制。这种能力为蛋白质设计提供了理性、可控的生成方法,拓展了蛋白质工程与生物学研究的边界。


生物学对齐与模型优化

虽然ESM3基础模型随着规模增大表现出显著提升,但更大的模型可能蕴藏尚未被完全挖掘的潜在能力。尽管基础模型未针对特定任务(如三级结构基序支架设计或复合提示响应)进行优化,但仍能通过提示完成这些复杂任务。为进一步提升生成任务的性能,通过微调对模型进行生物学对齐,有望挖掘出更大的能力差异。


研究通过对齐优化生成蛋白质以满足复杂提示的能力。构建包含残基和三级结构基序的骨架原子坐标提示数据集,对每个提示生成多条蛋白质序列,并使用ESM3对其进行折叠预测,以提示一致性(骨架cRMSD)和结构置信度(pTM)为指标评估生成质量。将高质量样本与低质量样本配对构建偏好数据集,通过偏好优化损失函数微调模型,使其对高质量样本分配更高概率。


对齐后的模型在解决提示任务方面表现出显著改进。在测试集的46种配体结合基序任务中,对齐后的模型解决任务的比例较基础模型翻倍(1.4B参数模型从9.5%提升至18.8%,7B模型从19.0%提升至37.4%,98B模型从26.8%提升至65.5%)。此外,对齐模型在每个任务上生成的高置信度结构簇数量更多,且对提示的响应更为精准。具体而言,98B模型在46种配体中,有37种生成了比基础模型更多的成功结构簇,其余9种则两者均未解决,这表明对齐几乎普遍提升了生成结果的提示一致性和结构预测置信度。

对齐实验揭示了不同模型规模间的能力差异。较大的模型不仅在对齐后相较基础模型有显著提升,同时也超越了对齐后的较小模型。通过对齐,模型能够从少量示例中学习并推广到新任务,其生成分布发生转变,显著提升了支架质量和提示一致性,同时增加了解决任务的比例和生成的独特解数量。


对齐过程中,模型通过微调示例识别潜在特性,并将这些特性推广到新任务,表明模型内部已学得包含这些特性的表示空间。这种表示空间源于预训练,覆盖了蛋白质进化的多样性与复杂性,因此支持对多种生物学特性的泛化能力。更大模型对对齐的响应性更强,说明其内部表示空间更好地逼近了这些特性,展现出通过规模扩展实现深度迁移能力的潜力。


生成远距离荧光蛋白

为了验证预训练的ESM3模型是否具有足够的生物学保真度来生成功能性蛋白质,研究人员尝试设计一种功能性绿色荧光蛋白(GFP),其序列与已知GFP的相似性较低。荧光功能因其复杂性、易于测量以及自然界的独特机制而被选择为研究对象。GFP家族蛋白无需辅因子或底物即可形成荧光发色团,这一特性使其成为标记分子、细胞结构或过程的关键工具,在生命科学中应用广泛。然而,已知GFP的序列多源于自然界,工程化设计通常仅涉及少量突变,而与天然GFP显著不同的工程化设计仍是极具挑战的任务。


为生成GFP序列,研究人员基于预训练的7B参数ESM3模型,利用指定发色团形成关键位点(如Thr65和Tyr66)及其相关的结构信息进行条件生成。模型从几乎完全掩码的229残基序列开始生成,先生成结构标记,再生成条件化的序列,通过迭代联合优化在序列和结构间不断提升生成结果。生成过程中,候选设计根据多种指标进行筛选与排名,最终得到数万个GFP设计的计算池。


初步实验中,研究人员选择了88个设计进行荧光活性测定,其中一项设计(B8)在已知荧光蛋白中展现出较低序列相似性(与最近的已知荧光蛋白相似性为57%),但表现出荧光功能信号。尽管其亮度较天然GFP低50倍且发色团成熟时间更长,但该设计代表了在自然界或蛋白质工程中尚未探索的序列空间。


随后,研究人员以B8为起点,通过相同的优化流程进一步设计了一批改进亮度的GFP。在第二批96孔板实验中,找到亮度接近天然GFP的设计(命名为esmGFP)。尽管esmGFP的发色团成熟时间较长,但其最终亮度与天然GFP相当,且其荧光活性依赖Thr65和Tyr66,突变后荧光丧失。


esmGFP的激发峰位于496 nm,与EGFP相比有7 nm的红移,发射峰为512 nm,与已知GFP一致。其激发光谱的全宽半高(FWHM)较窄,而发射光谱的FWHM与EGFP相当。BLAST分析显示,esmGFP与自然界的最近邻蛋白是红荧光蛋白tagRFP(序列相似性58%),并与自然界的野生型红荧光蛋白eqFP578存在53%的相似性。


通过进化时间校准分析,将esmGFP与三种海洋无脊椎动物的GFP进行比较,结果显示其序列差异相当于不同目之间的差异水平。基于较大数据集的分析估算,esmGFP的序列差异对应自然进化中的5亿年以上时间跨度。

esmGFP的设计展示了ESM3在生成生物功能性蛋白质方面的强大能力,尤其是在探索自然界未发现的序列空间方面。通过模拟长期进化过程,esmGFP为蛋白质设计与生物学研究提供了新的思路和工具。


讨论

研究人员发现,语言模型能够生成功能性蛋白质,这些蛋白质位于自然进化所探索空间之外,并且需要数亿年的进化才能发现。尽管蛋白质语言模型并未直接受限于进化的物理约束,但它们可以隐式构建出潜在的多种进化路径模型,这些路径可能代表进化本可以经历的方向。


蛋白质可以被视为存在于一个有序的空间中,其中每个蛋白质与通过一次突变事件即可抵达的邻近蛋白质相邻。在这个空间中,进化的结构呈现为一个网络,通过这些网络路径连接所有蛋白质。进化能够遵循的路径,是那些在系统功能不丧失的前提下,允许蛋白质逐步转变的方向。


语言模型正是在这个空间中“看见”蛋白质。模型将蛋白质数据视为填充该空间的点集,其中某些区域数据密集,而另一些区域则稀疏,揭示了进化可达的部分。由于下一步的蛋白质突变是由进化决定的,因此为了解决预测下一个标记的任务,语言模型必须学会预测进化如何穿越可能的蛋白质空间。


模拟是对现实的计算表示。从这个意义上来说,能够预测进化可能结果的语言模型可以被视为进化的模拟器。ESM3是一个通过解决基于进化数据的标记预测任务而学习的自发模拟器。已有理论认为,神经网络在预测数据时会发现数据的底层结构。通过解决标记预测任务,模型需要学习决定进化可采取步骤的深层结构,也就是蛋白质的基本生物学规律。


在ESM3生成荧光蛋白的过程中,通向B8的第一条链式思路尤为引人注目。B8与其最近邻的蛋白之间有96处突变,这意味着可能的蛋白数量极其庞大,但其中仅有极少数具有功能性,因为荧光性能在随机突变几次后便会大幅下降。然而,B8周围仍然存在一部分蛋白质空间,这部分空间虽然未被自然探索,但却富含荧光蛋白。C10及其他高亮度设计的存在进一步验证了这一点,说明在通向B8的第一条链式思路中,ESM3成功找到了一片富含荧光蛋白的未探索区域。

整理 | WJM 

参考资料

Hayes, T., Rao, R., Akin, H., Sofroniew, N.J., Oktay, D., Lin, Z., Verkuil, R., Tran, V.Q., Deaton, J., Wiggert, M. and Badkundri, R., 2025. Simulating 500 million years of evolution with a language model. Science, p.eads0018.


DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章