论文的研究目标和意义
本文的研究目标是开发一个名为ESM3的 多模态生成语言模型 ,它可以在蛋白质 序列 、 结构 和功能之间进行推理。ESM3可以根据复杂的输入指令(prompt)生成满足要求的新颖蛋白质,并在荧光蛋白设计实验中展现出在超远进化距离上设计功能蛋白的能力。
这一成果在以下几个方面具有重要意义:
证明了语言模型可以从进化数据中学习蛋白质的固有生物学规律,并创造出进化上遥远的新功能蛋白。这为理解和开发蛋白质功能提供了全新视角。 相比传统的结构生物学方法,ESM3 可以灵活组合不同层次的先验知识(序列、结构、功能)对蛋白质进行可控设计,大大拓宽了蛋白质工程的设计空间。 实验证实ESM3 能成功设计出新型荧光蛋白esmGFP,其性能与天然蛋白相当,但在进化距离上相当于5亿年的差异。这有望显著加速开发新型蛋白质工具在生物医药、合成生物学等领域的应用。
We have found that language models can reach a design space of proteins that is distant from the space explored by natural evolution, and generate functional proteins that would take evolution hundreds of millions of years to discover.
论文的创新方法及优势
ESM3的核心创新在于其多模态输入和生成范式的设计:
将蛋白质序列、结构、功能表示为离散 token ,统一在 变换器架构 中建模。这使得ESM3可以直接对完整蛋白质进行端到端建模,不同于以往需要复杂三维结构处理的方法。 使用 掩码语言建模 方式进行训练,使ESM3可以根据任意模态的部分输入来生成/补全缺失的序列/结构/功能。这赋予了ESM3根据复杂 prompt 进行可控蛋白质设计的能力。 在31.5亿蛋白质数据上训练,规模可达980亿参数。借助数据和模型规模优势,ESM3可以学习到蛋白质生物学的深层规律。 引入偏好优化的 对齐微调 方法,使ESM3生成的蛋白质在结构稳定性和与目标结构的一致性上大幅提升,展现了规模化语言模型的巨大潜力。
ESM3 achieves a scalable generative model of the three fundamental properties of proteins, sequence, structure, and function, through language modeling. . . . This simplicity enables ESM3 to leverage a scalable transformer architecture to train up to 98 billion parameters and more than one trillion teraflops of compute, demonstrating the emergence of complex reasoning capabilities over sequence, structure, and function.
通过多模态蛋白质语言模型ESM3实现序列-结构-功能的联合建模
ESM3的一个关键创新在于将蛋白质序列、结构、功能表示为离散token并在统一的 transformer 架构中建模。这使得ESM3可以灵活地根据不同模态的输入生成相应的输出,实现了对蛋白质多层次特征的端到端建模。
ESM3 achieves a scalable generative model of the three fundamental properties of proteins, sequence, structure, and function, through language modeling. Previous generative modeling efforts for proteins have focused primarily on individual modalities, leveraging complex architectures and training objectives for structure that represent proteins as three-dimensional objects. To date, the only language models that have been scaled are for protein sequences. In ESM3 sequence, structure, and function are represented through alphabets of discrete tokens.
通过在超过30亿条蛋白质数据上的训练,ESM3展现出了强大的表示学习和生成建模能力。从图1E可以看出,ESM3的无条件生成可以覆盖已知蛋白质序列和结构的分布空间。
此外,如图1D所示,ESM3可以有效利用序列、结构、功能的条件信息,随着训练规模的增大而不断提升生成的质量,充分利用了大模型的优势。
总的来说,ESM3开创了端到端多模态蛋白质预训练的新范式,为从海量进化数据中挖掘蛋白质设计知识提供了有力工具。
ESM3可根据复杂的序列/结构/功能输入提示进行可控蛋白质设计
得益于其多模态建模能力,ESM3可以根据不同层次的输入提示(prompt)进行灵活的蛋白质设计。
对于序列提示,ESM3生成的序列在91%以上的情况下可以折叠为置信度高(pLDDT>0.8)的结构。对于二级结构提示,生成序列的二级结构预测准确率达80%以上。对于溶剂可及表面积(SASA)提示,生成序列的SASA与提示的Spearman相关系数高达0.97。对于描述折叠拓扑和功能的关键词提示,84%的生成序列可以恢复关键词注释。
更重要的是,ESM3可以根据复合提示设计出满足多重约束的新颖蛋白质。例如,在图2C中,作者展示了多个由基于原子坐标的结合位点提示和关键词/二级结构提示共同指导设计的蛋白质。它们在保持关键结合位点构象的同时,整体结构与提示来源的模板差异较大(中位TM-score仅0.36),表明ESM3具备从提示出发探索新的序列结构空间的能力。
此外,ESM3还展现出了对提示进行创造性组合和外推的能力。如图2D所示,它成功将一个蛋白酶的长度压缩了33%,但同时保持了催化中心的关键残基构象。
We construct a set of prompts combining SS8 and SASA from held out structures (TM < 0.7 to training set). Under these prompts, although the model continues to generate coherent globular structures (mean pTM 0.85 ± 0.03 under ESM3 7B; supplementary materials, section A.3.9), the distribution of similarities to the training set (as measured by TM-score and sequence identity) shifts to be more novel (average sequence identity to nearest training set protein < 20% and mean TM-score 0.48 ± 0.09; Fig. 2B, top).
We find that ESM3 is able to solve a wide variety of such tasks (Fig. 2C). It does so without retrieving the motif's original scaffold (median TM-score of 0.40 ± 0.10; supplementary materials, section A.3.10).
综上所述,ESM3所展现出的根据复杂、抽象的提示进行定制化设计的能力,代表了蛋白质设计领域的重要突破,为发展蛋白质功能编程奠定了基础。
通过对齐优化大幅提升ESM3的提示指导蛋白质设计能力,揭示了其内在泛化潜力
尽管无监督预训练的ESM3已经展现了强大的蛋白质设计能力,但作者通过预训练-微调范式进一步挖掘了其潜力。通过构建正负样本对进行偏好学习,ESM3生成的蛋白质在结构稳定性和提示符合度上都有大幅提升。
如图3A所示,在以配体结合位点为提示的设计任务上,980亿参数模型的成功率从基线的26.8%提升到65.5%,而14亿和70亿参数模型的进步幅度相对较小,凸显了模型规模对于实现few-shot泛化的重要性。
从图3B还可以看出,对齐后的ESM3不仅提高了设计的成功率,还拓宽了设计空间,产生了更多结构差异明显的解。
如图3C所示,对齐使得设计的质量分布(从pLDDT和与目标位点原子坐标的RMSD两个维度)发生了明显的右移,表明ESM3通过少量样本的微调即可将预训练阶段学习到的蛋白质内在规律泛化到新的设计任务,展现了基于进化数据的预训练-微调范式的巨大潜力。
After aligning each of the base models, we evaluate their absolute performance, and the shift in the distribution of generations. We focus on a series of challenging prompts that require coordination of the backbone atoms of residues in tertiary contact.
Aligned models solve double the tertiary coordination tasks compared to base models (Fig. 3A). While the base models show differences in the percentage of tasks solved (9.5% for 1.4B, 19.0% for 7B, 26.8% for 98B; Fig. 3A), a much larger capability difference is revealed through alignment (increasing from 9.5% to 18.8%, 19.0% to 37.4%, and 26.8% to 65.5% for the 1.4B, 7B and 98B models, respectively).
值得一提的是,ESM3的对齐过程本质上是一种基于人类偏好的弱监督学习,而非针对特定任务的有监督微调,因此其泛化能力更值得期待。这也启示我们,少样本学习可能是实现通用蛋白质设计系统的关键。
利用ESM3从头设计出超远进化距离的高性能荧光蛋白esmGFP,开创了从进化数据智能挖掘新功能的先河
为了考察ESM3从进化数据中学习和外推蛋白质功能规律的能力,作者以GFP为例,设计了一系列实验。
In an effort to generate GFP sequences, we directly prompt the base pretrained 7B parameter ESM3 to generate a 229 residue protein conditioned on the positions Thr62, Thr65, Tyr66, Gly67, Arg96, Glu222, which are critical residues for generating the chromophore (Fig. 4A). We additionally condition on the structure of residues 58 through 71 from the experimental structure in 1QY3, which are known to be structurally important for the energetic favorability of chromophore formation. Specifically, sequence tokens, structure tokens, and atomic coordinates of the backbone are provided at the input, and generation begins from a nearly completely masked array of tokens corresponding to 229 residues, except for the token positions used for conditioning.
如图4A所示,作者利用编码了形成发色团所需关键位点的序列、结构信息作为prompt,先生成主链结构,再优化全序列,并迭代优化序列-结构匹配,最终从数万个候选中筛选出少数有潜力的设计。其中B8与任何已知荧光蛋白的序列同一性仅为57%。以B8为基础,ESM3经过进一步优化得到最终设计esmGFP。
从图4B的两轮实验筛选可以看出,ESM3生成的B8和最终的esmGFP克服了进化远距离带来的功能障碍,在大肠杆菌中表达后展现出明显的荧光信号。测序结果证实esmGFP与最近的天然同源蛋白在进化距离上相差5亿年(图4H)。如图4C所示,成熟后的esmGFP荧光强度与天然GFP相当。图4D的光谱分析进一步证实了esmGFP作为荧光报告基团的成功。
We find esmGFP exhibits brightness in the distribution of natural GFPs. We evaluated the fluorescence intensity at 0, 2, and 7 days of chromophore maturation, and plot these measurements for esmGFP, a replicate of B8, a chromophore knockout of B8, along with three natural GFPs avGFP, cgreGFP, ppluGFP (Fig. 4C). esmGFP takes longer to mature than the known GFPs that we measured, but achieves a comparable brightness after two days.
Analysis of the excitation and emission spectra of esmGFP reveals that its peak excitation occurs at 496 nm, which is shifted 7 nm relative to the 489 nm peak for EGFP, but both proteins emit at a peak of 512nm (Fig. 4D). The shapes of the spectra indicated a narrower full-width-half-maximum (FWHM) for the excitation spectrum of esmGFP (39mm for esmGFP vs 56 nm for EGFP), whereas the FWHM of their emission spectra were highly comparable (35nm and 39 nm, respectively).
尽管esmGFP比天然GFP的发色团成熟时间更长,但作者指出,关键在于ESM3在超远进化距离上实现了荧光功能的从头设计,这是传统定向进化方法难以企及的。
Proteins can be seen as existing within an organized space where each protein is neighbored by every other that is one mutational event away (58). The structure of evolution appears as a network within this space, connecting all proteins by the paths that evolution can take between them. The paths that evolution can follow are the ones by which each protein transforms into the next without the collective loss of function of the system it is a part of.
It is in this space that a language model sees proteins. It sees the data of proteins as filling this space, densely in some regions, and sparsely in others, revealing the parts that are accessible to evolution. Since the next token is generated by evolution, it follows that to solve the training task of predicting the next token, a language model must predict how evolution can move through the space of possible proteins.
ESM3从蛋白质组学大数据中学习进化在序列空间中遍历的规律,从而获得了设计蛋白质新功能的能力。esmGFP的成功展现了语言模型作为进化模拟器的理论潜力,为理解和开发蛋白质功能提供了全新视角。
论文核心发现总结
综上所述,本文的核心发现可以概括为:
开发了首个端到端多模态蛋白质语言模型ESM3,实现了从序列到结构到功能的联合建模,为蛋白质设计提供了新范式。 证明了ESM3可以根据不同抽象层次的复杂提示进行定制化蛋白质设计,并能创造性地组合和外推各类约束,大大拓展了设计空间。 通过少样本的对齐优化,ESM3生成设计的质量和多样性显著提升,表明其具备从进化数据中学习蛋白质功能泛化规律的能力。 利用ESM3从头设计出超进化距离的新型荧光蛋白esmGFP,在保持天然GFP性能的同时实现了5亿年尺度的功能外推,开创了从进化数据智能挖掘新功能的先河。
对业界的影响和商业机会
ESM3及其衍生工作有望在以下领域产生重要影响:
新药研发:利用ESM3发现新的药物作用靶点和先导化合物,加速药物筛选和优化过程。 合成生物学:使用ESM3设计新的酶、通路和生物系统,用于化学品和材料的生物合成。 结构生物学:结合ESM3和传统方法,加速解析蛋白质结构功能关系,指导蛋白质工程。 基础生物学:从进化和物理化学第一性原理出发,理解蛋白质序列-结构-功能的关联和进化规律。 生物大数据和AI:开发新的机器学习模型和算法,挖掘海量组学数据中的生物学知识。
未来研究方向和挑战
尽管ESM3取得了令人振奋的成果,但离实用化大规模精准设计功能蛋白质还有不少挑战:
提高生成蛋白质的成功率和收敛速度,减少实验筛选成本。这需要进一步优化模型架构和训练范式。 拓展到更多功能类别的蛋白质(如膜蛋白、金属结合蛋白等)。这需要引入更多结构功能注释数据。 验证ESM3生成蛋白质的理化性质和体内功能。这需要和实验生物学紧密结合。 增强模型的可解释性,理解其决策机制。这需要发展神经网络可解释性工具。 建立友好的用户界面,方便生物学家使用。这需要开发成熟的软件系统和知识库。
此外,ESM3引出了一些有趣的理论问题,如语言模型能在多大程度上学习和外推生物学规律?如何通过算法提升小样本和零样本学习?这些都是值得深入探索的基础问题。
Critical Thinking
尽管ESM3在设计esmGFP等蛋白质上展现了惊人的能力,但其在真实应用中的效果仍有待进一步检验:
荧光蛋白相对较容易设计和鉴定,但ESM3能否设计出结构和功能更加复杂的蛋白质(如膜蛋白、多聚体蛋白等)?这需要更多实验数据的反馈和验证。 esmGFP的成熟时间比天然GFP长,这可能影响其作为标记蛋白的应用。其他理化性质和稳定性也需要系统表征。 文中主要关注了序列同一性,但结构相似性、进化保守性等更多维度的比较分析将有助于理解ESM3设计蛋白质的特点。