力文所始终专注于将AI模型与湿实验深度融合,致力于建立蛋白质设计平台。我们利用蛋白质AI模型强大的预测和生成能力,协助客户解决蛋白质产品工业应用的各种挑战。
今日,Lésign平台正式发布自研新成员:LéxFusion。
这是一款高质量蛋白质结构生成模型,其特点包括改进的3-track Pairformer架构、创新的退火式双通道回流策略、极速的采样性能以及高质量的数据集构建与训练策略,将为蛋白质设计和合成带来更多创新与可能。
01
LéxFusion
先进的蛋白扩散AI模型
LéxFusion是由力文所最新研发的一款蛋白质扩散生成AI模型,其核心优势在于其独特的多维数据处理能力和高效的结构去噪技术。
该模型能够综合利用蛋白质序列信息、二级结构、二面角、二维隐空间信息、距离矩阵和二级结构邻接矩阵等多种生物学信息,进行条件式蛋白生成。
LéxFusion的主要改进:
改进1:空间感知的Pairformer模块
LéxFusion的首要改进是基于AlphaFold3中的Pairformer模块进行了适配性的改进,显著增强了模型对三维空间坐标的感知和融合信息的能力。
AlphaFold3已经凭借其卓越的蛋白质结构预测性能赢得了广泛认可,而Pairformer模块作为其核心组件之一,负责处理和集成一维和二维的信息之间的融合和更新。
在LéxFusion中,我们对Pairformer模块进行了专门的适配性改进,以优化其在三维空间坐标处理上的能力。这些改进不仅提升了模型对蛋白质三维结构信息的感知能力,还增强了其在多维度数据集成中的表现:
三维空间感知增强:通过改进Pairformer模块,融合处理了三维空间中的距离和角度信息,从而更准确地捕捉蛋白质分子的几何结构。这种增强使得LéxFusion在解码复杂的噪声三维数据时,能够保持更高的精度和鲁棒性。
条件融合能力提升:改进后的Pairformer模块能够更有效地整合来自一维和二维的条件信息,包括蛋白质序列和二级结构信息。通过这些信息的融合,LéxFusion可以在去噪和解码过程中,利用更多的低维度的结构信息,从而提高蛋白质生成的准确性。
改进2:创新的模拟退火自条件策略
LéxFusion首创的退火式多通道自条件策略(multi-channels annealing self-conditioning strategy)在自条件训练过程中引入了自适应的一级、二级结构条件信息。这一机制不仅在模型训练的早期阶段就能显著降低不确定性和误差,还增强了模型对特征信息的自洽性和整体稳定性。
该策略在模型训练的初始阶段通过自适应地引入二级结构条件信息,使模型能够更准确地捕捉和利用特征信息。这种方法有效地减少了早期训练过程中的不确定性和误差累积,提高了模型的泛化能力和稳定性。
此外,退火式双通道回流策略赋予了网络自适应调整控制条件强度的能力。即使在面对极其复杂或模糊的给定条件时,模型也能够动态地调整条件信息的影响力度,从而保持网络的稳健性。这一特性大幅增强了模型的去噪稳定性,使其在处理高噪声或有偏差的条件时表现出色。
SSE自适应条件控制去噪
改进3:极速的采样性能
得益于基于条件的扩散机制,LéxFusion在数据稀缺的高噪声区域也能根据条件有效地确定结构去噪梯度的方向,提高模型的采样质量,极大地缩短了总计75%采样所需的时间。
加速采样速度
正常采样速度
改进4:数据集构建与训练策略的深刻见解
力文所在数据集构建与训练策略方面展现了对mini protein设计的深刻见解。我们从全球公开的2.3亿条蛋白质结构数据库中,采用多种数据蒸馏技术,提取了最具代表性和信息丰富的数据。超高质量的数据获取,确保了模型能够更加高效和精确地学习到蛋白质折叠的多种类型和结构的基本元件。
针对性的训练数据集优化,是基于当前基因芯片合成技术的能力进行的。考虑到合成长度区间的特点,我们对数据集进行了特别的调整,以匹配合成长度的具体需求。这种定制化的数据处理不仅提高了模型的实用性和适用性,而且极大地增强了其在实际应用场景中的性能,使得LéxFusion在设计复杂多变的mini protein时,能够展现出卓越的创新能力和应用潜力。
02
LéxFusion@gSEWING
在蛋白质扩散模型领域的发展中,无条件扩散生成模型如RFdiffusion和FrameDiff通常受限于数据集的分布和规模,这导致生成的蛋白质结构往往局限于螺旋或大型螺旋等常见形式。这种局限性不仅影响结构的多样性,还限制了可设计的蛋白质结构范围,主要集中在相对容易设计的螺旋结构上,这在实际应用中形成了明显的瓶颈。
为了突破这一限制,力文所采纳了类似于DALL-E 3这类多模态大模型的创新思维——“以文生图”。在这种方法中,我们将蛋白质的低级结构特征视为“语言描述”,用于指导生成符合特定特征的蛋白质结构。
尽管与自然语言描述相比,蛋白质的条件性特征更加复杂且难以直观描述,但力文所通过独特的技术突破了这一难题。
基于图路径搜索的随机蓝图系统方法(力文所)
为了解决蛋白质亚单元结构配对问题,力文开发了一种全新的方法,称为gSEWING(General Structure Extension WIth Native-fragment Graphs)。
相比于传统的Rosetta SEWING算法,gSEWING着重解决传统方法主要依赖预定义的二级螺旋结构模板来引导蛋白质片段重组的局限性。
传统的Rosetta SEWING 算法
(低效,且只能处理HELIX单元)
gSEWING方法具有极大的灵活性和适应性,特别是在处理非螺旋片段单元时。该系统利用AlphaFold和ESMFold结构数据库中的数亿条蛋白质结构数据,对这些数据进行拆解和聚类,提取出蛋白质结构中的基本二级结构单元。
通过对二级结构片段的相似性进行聚类和编码,更全面地考虑了二级结构之间的适配性。结合图随机路径游走算法,这些结构单元被模块化并有机地组装,形成新的结构原型模板。
这种策略使得每一个结构单元的配对更加精确,不再仅仅依赖于传统算法中的绝对三维坐标匹配。我们的方法允许开发者和用户根据功能需求和生物学特性自由地组合不同的结构单元。
结合LéxFusion的条件性扩散生成能力,这一进步不仅提高了结构设计的准确性,还极大地扩展了可实现结构的多样性。扩散生成技术可以在保留原有功能性的同时,通过灵活的组合和优化,生成更加稳定和功能丰富的蛋白质结构。这种方法从根本上超越了传统模板依赖的限制,为复杂结构的蛋白质设计和合成打开了新的可能。
03
LéxFusion
探索蛋白质结构隐空间
3.1 SSE条件性生成任务对比
LéxFusion得益于全新的自条件策略和网络融合构架,不仅能准确控制二级结构的准确性,同时还能自适应调整条件,让网络寻找最优的生成解决方案,在处理复杂结构和多样性设计上表现出色,生成的蛋白质结构不仅在精度上更加接近目标结构,而且在设计灵活性上提供了更高的可操作性。
在完全相同的SSE条件性控制生成任务下进行对比,LéxFusion保持和RFdiffusion同一水平的高可设计性同时,能更有效地满足约束限定条件下进行定向生成,且生成的多样化结构显著优于RFdiffusion模型。
分析不同折叠类型约束结果可见:LéxFusion和RFdiffusion均对all-α-helix类型有较好的控制力,LéxFusion在all-β-sheet和αβ-fold的控制力优于RFdiffusion。
3.2 新颖性/多样性任务对比
LéxFusion不仅拥有强大的条件性生成能力,还具备优秀的弱条件生成能力。我们使用 UMAP 方法评估了 LéxFusion 和 RFdiffusion 在生成多样性样本方面的能力,共计嵌入了约12,000个 LéxFusion样本和5,000个RFdiffusion样本。
通过可视化结果可以看出,LéxFusion生成的样本空间覆盖度远超 RFdiffusion,尤其是在新颖蛋白结构分布方面, 展现了出了更广泛的结构覆盖范围能力。
UMAP FOLD Structure分析图:
LéxFusion 模型的结构多样性和平衡性方面优于 RFdiffusion 模型,LéxFusion 能够生成大量复杂且多样化的结构,而RFdiffusion模型偏向于生成“理想化”的螺旋结构,这类螺旋结构与PDB中的结构数据高度相似,而LéxFusion可以采样到大量TM-score分布在0.5-0.7之间的多样性新颖结构,这表明LéxFusion 模型不仅从 PDB 数据中学习到了二级结构分布的基本规律,还能够有效地泛化这些规律生成新的结构,而非简单地复制PDB训练数据。
LéxFusion产生的高可设计性新颖结构
RFDiffusion倾向于生成与已知结构相似的结果
我们重点展示了嵌入空间中具有高评分的蛋白质结构,这些结构展现了高新颖性和高可设计性的特点,这展示出LéxFusion 在蛋白质结构生成领域显示出了巨大的潜力,尤其是在生成多样和复杂的结构方面,为功能化蛋白质/酶蛋白生成设计奠定了坚实的基础。
04
展望
LéxFusion凭借其在生成质量和结构可设计性方面的突出表现,在多个应用场景中的卓越表现将其置于头部玩家的第一梯,成为当前SSE条件性控制生成任务中的首选工具。
未来的研究和开发我们将进一步优化LéxFusion的算法,提高其在酶设计应用场景中的适用性和效率,为蛋白质设计和相关领域提供更加可靠和高效的解决方案。
2024丨力文所
EXPLORE EVOLUTION
DECIPHER LIFE
©️ 力文所原创内容,未经许可转载必究。
欢迎给力文所LEVINTHAL公众号 标星
在文末右下角点击 在看
给本文作者 点赞