ProteinBench|蛋白基础模型最全面BenchMark

文摘   2024-09-15 22:57   广东  

蛋白基础模型的全面BenchMark

ProteinBench

ProteinBench 是关于蛋白设计极全面的一个Benchmark,用于全面评估蛋白质基础模型的性能。它通过分类任务、多维度评价指标和深入分析,揭示了这些模型的能力和局限。研究者们还开源了相关数据集和工具,以推动蛋白质科学研究的透明度和进一步发展。

关键词

蛋白设计|Benchmark

链接🔗:https://proteinbench.github.io

目录
  1. 背景介绍
  2. 任务描述
  3. 基准测试
  • 逆向折叠
  • 蛋白质主链设计
  • 序列设计
  • 结构-序列共同设计
  • 基序框架设计
  • 抗体设计
  • 蛋白结构预测
  • 多状态预测
  • 分布预测
  • 总结展望
  • 1. 背景介绍

    蛋白是执行生物功能的基础分子,在制药、农业、特殊化学品和生物燃料等领域有广泛的应用和价值。

    近年来,AI的蛋白质基础模型取得了巨大进步,比如:

    • 基于扩散模型的 AlphaFold3 实现了对所有生物分子完整原子结构的预测;

    • 基础模型也有从单模态转向多模态的趋势,比如联合序列、结构和功能等信息的蛋白质语言模型 ESM3

    • 最近也有将结构预测拓展到多构象预测任务的趋势,或者将生成人工智能引入到预测蛋白构象分布 ,如:DIG

    然而,蛋白质基础模型的发展也暴露了对统一基准测试(BenchMark)的需求,以便全面评估它们在多样化任务、数据集和指标上的性能。

    图1|ProteinBench 的全面概述。蓝色星号标记的是以前没有标准化的基准。

    解决以上痛点就是 ProteinBench 工作的初衷。为了给蛋白质基础模型提供全面评估的基准,ProteinBench 有四个关键之处:

    1. 更全面的任务分类:ProteinBench 综合了蛋白质设计(包括结构、序列、共同设计和抗体设计)、三维结构预测和多构象预测等关键任务,通过多样化数据集和指标全面评估模型性能(下表1)。

    <<< 左右滑动见更多 >>>

    1. 更系统的评估指标:通过质量、新颖性、多样性和鲁棒性四个维度,ProteinBench 提供了一个全面的模型评估方法,超越了传统的单一或双重评估标准。

    2. 更了解用户需求:ProteinBench 从不同用户需求出发,深入分析模型性能,如自然进化适应性或创新蛋白质生成能力,以满足广泛的实际应用需求。

    3. 排行榜和代码框架:为了促进公平比较和支持新方法的开发,提供统一的实验框架、公共排行榜和开源代码,促进模型间的公平比较和新方法的开发,推动蛋白质建模领域的进步。榜单链接:https://huggingface.co/spaces/proteinbench/ProteinBench

    <<< 左右滑动见更多 >>>

    2. 任务描述

    任务描述

    ProteinBench 特别关注两个关键的生成任务蛋白质设计和构象动力学。这两个领域进一步细分为八个子任务。

    根据您之前提供的文件内容,ProteinBench 评估框架涵盖了蛋白质设计和蛋白质构象预测两大领域,具体细分为以下八个子任务

    1. 蛋白质设计 (Protein Design)

    • 逆向折叠 (Inverse Folding)
    • 蛋白质主链设计 (Protein Backbone Design)
    • 序列设计 (Sequence Design by PLM)
    • 结构-序列共同设计 (Struct-seq Co-design)
    • 基序框架设计 (Motif Scaffolding)
    • 抗体设计 (Antibody Design)
  • 蛋白质构象预测 (Protein Conformation Prediction)

    • 单状态预测 (Single-state Prediction)
    • 多状态预测 (Multiple-state Prediction)
    • 分布预测 (Distribution Prediction)

    评估指标

    用于评估模型性能的指标描述,包括质量、新颖性、多样性和鲁棒性措施。每个子任务相关指标略微有差别,请读者阅读原文。

    数据集

    用于每个任务的数据集概览,包括其大小、多样性以及应用的任何预处理步骤。每个子任务相关数据集有差别,请读者阅读原文。

    3. 测试结果

    3.1 蛋白设计任务

    3.1.1 逆向折叠算法 (Inverse Folding)

    评估结果显示,基于语言模型的方法,例如LM-DESIGN,在天然蛋白质结构基础序列设计中有效地捕捉到了自然进化分布,实现了高序列恢复率AAR(下图)。

    然而,当应用于基于从头设计主链的序列设计时,其性能下降。相反,ProteinMPNN在去新设计任务中表现出色,但在适应自然进化的目标时性能下降。

    PiFold和CarbonDesign等算法计划将来加进来。

    <<< 左右滑动见更多 >>>

    3.1.2 蛋白骨架设计 (Protein Backbone Design)

    RFdiffusion在50至300个氨基酸链长的骨架设计中表现出卓越的性能。FrameFlow在这一范围内第二好(下图)。

    但在所有模型中,当链长增至500个氨基酸时,所有模型的性能均明显下降,scTM得分下降超过20%。这表明开发长链骨架设计的方法仍然是未来研究的一个重要挑战。

    在新颖性方面,FoldFlow和Genie在中等质量约束下(scTM得分>0.5)表现良好。当我们提高质量阈值(scTM得分>0.8)时,Chroma在50至500个氨基酸链长范围内的整体性能表现最佳。

    在多样性方面,Chroma在所有测试的链长中展现出值得称赞的性能。

    <<< 左右滑动见更多 >>>

    3.1.3 蛋白序列设计 (Sequence Design)

    • ProGen2 是一个自回归蛋白质语言模型(AR-LM);
    • EvoDiff 被设计为一个无序自回归扩散模型(OADM);
    • DPLM和ESM3共享一个概率基础,作为掩蔽语言模型。值得注意的是,ESM3是一个多模态模型。

    ProGen2在质量、多样性和新颖性方面提供了平衡的性能(下图)。

    DPLM在所有长度上都显示出最高的质量得分,表明其在序列生成准确性方面优于其他模型。

    EvoDiff在多样性方面表现出色,尤其是在产生高度多样化的序列簇方面。

    总体而言,DPLM在高度结构化的蛋白质序列生成方面表现出色,而EvoDiff和ESM3在提供更好的多样性和新颖性方面更为可取,ProGen2则在各项指标上提供了平衡的性能

    <<< 左右滑动见更多 >>>

    3.1.4 结构-序列共设计 (Struct-seq Co-design)

    ProteinGenerator和Multiflow在所有测试的序列长度上均展现出强大的结构-序列兼容性,具有高scTM得分和相对较低的scRMSD值,表明它们在生成序列方面具有优越的结构质量(下图)。

    ProteinGenerator特别擅长短序列长度,显示出质量与多样性之间的平衡性能。

    Multiflow即使在序列长度增加时也保持高性能,显示出其在生成高质量结构方面的稳健性。

    ProtPardelle和ESM3随着序列长度的增加,性能有所下降,这表明它们在维持较长序列的结构质量方面存在挑战。

    这里并没将最近力文所的Pallatom加入对比。

    <<< 左右滑动见更多 >>>

    3.1.5 基序框架设计 (Motif Scaffolding)

    基于结构的方法(如RFdiffusion、TDS和FrameFlow)在大多数情况下表现良好,具有在生成可设计骨架方面的高效性(下图)。

    基于序列的方法(如EvoDiff和DPLM)在某些主要由进化约束控制的骨架上表现出色,但在具有更复杂结构基序的其他骨架上表现不佳。

    ESM3作为一个多模态蛋白质语言模型,能够在大多数情况下生成设计良好的骨架,其性能与更高级的结构基础模型相当。

    <<< 左右滑动见更多 >>>

    3.1.6 抗体设计 (Antibody Design)

    dyMEAN和MEAN在序列和结构的准确性上表现最佳,而DiffAb在TM得分上表现最好下图)。

    在功能性方面,所有方法产生的抗体与给定抗原的结合能量都显著高于自然抗体,其中AbDPO和AbDPO++在结合能量方面表现最佳。

    在特异性方面,MEAN和dyMEAN生成的抗体序列对不同抗原的相似性较高,而DiffAb和AbDPO在生成特异性抗体方面表现更好。在合理性方面,HERN在序列自然度上表现最佳,而AbDPO++在结构和序列一致性方面表现最好。

    <<< 左右滑动见更多 >>>

    3.2 蛋白构象预测

    3.2.1 单状态预测 (Protein Folding)

    基于多序列比对(MSA)的折叠模型,如AlphaFold2和OpenFold,优于基于蛋白质语言模型的折叠模型,如ESMFold和EigenFold(下图)。

    AlphaFold2和OpenFold在所有准确性指标上均展现出最佳性能

    除了EigenFold之外,其他模型在预测结构的质量方面表现相当,α碳原子之间的冲突或断裂很少。EigenFold由于其设计上的一些限制(如使用粗粒化表示,仅包含α碳原子,模型大小较小),其性能可能受限。

    <<< 左右滑动见更多 >>>

    3.2.2 多状态预测 (Multiple-state Prediction)

    基于AlphaFold2模型的MSA子采样方法在预测配体结合诱导的构象变化(apo-holo)方面表现最佳。

    尽管通过减少MSA深度可以提高样本多样性,但这种策略并没有显著提高模型在apo-holo构象挑战中的性能。此外,Str2Str模型在预测apo或holo结构方面表现不佳。

    在BPTI数据集上,ConfDiff模型(特别是ESM-Force版本)在整体准确性方面表现最佳,表明纳入物理信息可以提高高准确性构象的采样。

    然而,在apo-holo数据集上,即使是表现最好的模型也难以超越“完美”折叠模型,表明现有的蛋白质构象模型在预测apo-holo构象变化方面仍然面临挑战(下图)。

    <<< 左右滑动见更多 >>>

    3.2.3 分布预测 (Distribution Prediction)

    基于序列的生成模型(如AlphaFlow/ESMFlow和ConfDiff)在几乎所有准确性指标上都比基于扰动的方法(如MSA子采样和Str2Str)表现得更好。

    特别是,选择强大的基础折叠模型(例如AlphaFold或OpenFold)以及在MD构象数据上进行微调处理,这两个因素一致地提高了模型的性能(下图)。

    <<< 左右滑动见更多 >>>

    4. 总结展望

    4.1 主要观察和结论

    1. 评估方法的重要性:有效的蛋白质基础模型评估需要正确且全面的评估指标。尽管先进的折叠模型(如AlphaFold2和ESMFold)为蛋白质生成任务的准确性提供了机会,但仍需开发更精确的评估方法以适应复杂的结构预测任务。

    2. 模型选择与应用对齐:没有单一模型在所有蛋白质设计目标上都表现出色。研究者在选择模型时应考虑特定的设计目标,如语言模型在捕捉自然进化分布方面表现出色,而基于结构的模型在去新设计任务中展现出更大的鲁棒性。

    3. 蛋白质构象预测的挑战:尽管基于经典折叠模型的生成模型展示了采样蛋白质构象的能力,但在多重状态预测和分布预测方面仍存在挑战。当前模型的性能与分子动力学模拟相比仍有明显差距。

    4.2 未来工作的方向:

    1. 模型和数据集的扩展:未来的工作应包括更多的蛋白质基础模型,并考虑标准化训练数据集,以便更准确地比较不同模型架构的性能。

    2. 任务范围的扩大:ProteinBench基准测试可以进一步扩展,包括更广泛的任务,以增加其范围和实用性。

    3. 持续改进基准测试:作者承诺不断改进和扩展ProteinBench,使其成为一个动态发展的基准测试,以加速蛋白质建模和设计领域的发展。

    4. 新任务范式的开发:为了克服当前抗体设计等领域的挑战,需要开发新的任务范式,以实现更准确的模型评估和设计。

    文献代码
    • Ye, Fei, et al. "ProteinBench: A Holistic Evaluation of Protein Foundation Models."arXiv:2409.06744 (2024).

    • https://proteinbench.github.io/

    • https://huggingface.co/spaces/proteinbench/ProteinBench

    往期文章

    蛋白设计综述BenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

    关注我们

    死磕自己,愉悦大家

    专注于AI蛋白相关的论文解读&学术速运

    AI4Protein
    读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
     最新文章