蛋白基础模型的全面BenchMark
ProteinBench
ProteinBench 是关于蛋白设计极全面的一个Benchmark,用于全面评估蛋白质基础模型的性能。它通过分类任务、多维度评价指标和深入分析,揭示了这些模型的能力和局限。研究者们还开源了相关数据集和工具,以推动蛋白质科学研究的透明度和进一步发展。
关键词
蛋白设计|Benchmark
链接🔗:https://proteinbench.github.io
目录
背景介绍 任务描述 基准测试
逆向折叠 蛋白质主链设计 序列设计 结构-序列共同设计 基序框架设计 抗体设计 蛋白结构预测 多状态预测 分布预测 总结展望
1. 背景介绍
蛋白是执行生物功能的基础分子,在制药、农业、特殊化学品和生物燃料等领域有广泛的应用和价值。
近年来,AI的蛋白质基础模型取得了巨大进步,比如:
基于扩散模型的 AlphaFold3 实现了对所有生物分子完整原子结构的预测;
基础模型也有从单模态转向多模态的趋势,比如联合序列、结构和功能等信息的蛋白质语言模型 ESM3。
最近也有将结构预测拓展到多构象预测任务的趋势,或者将生成人工智能引入到预测蛋白构象分布 ,如:DIG。
然而,蛋白质基础模型的发展也暴露了对统一基准测试(BenchMark)的需求,以便全面评估它们在多样化任务、数据集和指标上的性能。
解决以上痛点就是 ProteinBench 工作的初衷。为了给蛋白质基础模型提供全面评估的基准,ProteinBench 有四个关键之处:
更全面的任务分类:ProteinBench 综合了蛋白质设计(包括结构、序列、共同设计和抗体设计)、三维结构预测和多构象预测等关键任务,通过多样化数据集和指标全面评估模型性能(下表1)。 <<< 左右滑动见更多 >>>
更系统的评估指标:通过质量、新颖性、多样性和鲁棒性四个维度,ProteinBench 提供了一个全面的模型评估方法,超越了传统的单一或双重评估标准。
更了解用户需求:ProteinBench 从不同用户需求出发,深入分析模型性能,如自然进化适应性或创新蛋白质生成能力,以满足广泛的实际应用需求。
排行榜和代码框架:为了促进公平比较和支持新方法的开发,提供统一的实验框架、公共排行榜和开源代码,促进模型间的公平比较和新方法的开发,推动蛋白质建模领域的进步。榜单链接:https://huggingface.co/spaces/proteinbench/ProteinBench
<<< 左右滑动见更多 >>>
2. 任务描述
任务描述
ProteinBench 特别关注两个关键的生成任务蛋白质设计和构象动力学。这两个领域进一步细分为八个子任务。
根据您之前提供的文件内容,ProteinBench 评估框架涵盖了蛋白质设计和蛋白质构象预测两大领域,具体细分为以下八个子任务:
蛋白质设计 (Protein Design)
逆向折叠 (Inverse Folding) 蛋白质主链设计 (Protein Backbone Design) 序列设计 (Sequence Design by PLM) 结构-序列共同设计 (Struct-seq Co-design) 基序框架设计 (Motif Scaffolding) 抗体设计 (Antibody Design) 蛋白质构象预测 (Protein Conformation Prediction)
单状态预测 (Single-state Prediction) 多状态预测 (Multiple-state Prediction) 分布预测 (Distribution Prediction) 评估指标
用于评估模型性能的指标描述,包括质量、新颖性、多样性和鲁棒性措施。每个子任务相关指标略微有差别,请读者阅读原文。
数据集
用于每个任务的数据集概览,包括其大小、多样性以及应用的任何预处理步骤。每个子任务相关数据集有差别,请读者阅读原文。
3. 测试结果
3.1 蛋白设计任务
3.1.1 逆向折叠算法 (Inverse Folding)
评估结果显示,基于语言模型的方法,例如LM-DESIGN,在天然蛋白质结构基础序列设计中有效地捕捉到了自然进化分布,实现了高序列恢复率AAR(下图)。
然而,当应用于基于从头设计主链的序列设计时,其性能下降。相反,ProteinMPNN在去新设计任务中表现出色,但在适应自然进化的目标时性能下降。
PiFold和CarbonDesign等算法计划将来加进来。
<<< 左右滑动见更多 >>>
3.1.2 蛋白骨架设计 (Protein Backbone Design)
RFdiffusion在50至300个氨基酸链长的骨架设计中表现出卓越的性能。FrameFlow在这一范围内第二好(下图)。
但在所有模型中,当链长增至500个氨基酸时,所有模型的性能均明显下降,scTM得分下降超过20%。这表明开发长链骨架设计的方法仍然是未来研究的一个重要挑战。
在新颖性方面,FoldFlow和Genie在中等质量约束下(scTM得分>0.5)表现良好。当我们提高质量阈值(scTM得分>0.8)时,Chroma在50至500个氨基酸链长范围内的整体性能表现最佳。
在多样性方面,Chroma在所有测试的链长中展现出值得称赞的性能。
<<< 左右滑动见更多 >>>
3.1.3 蛋白序列设计 (Sequence Design)
ProGen2 是一个自回归蛋白质语言模型(AR-LM); EvoDiff 被设计为一个无序自回归扩散模型(OADM); DPLM和ESM3共享一个概率基础,作为掩蔽语言模型。值得注意的是,ESM3是一个多模态模型。 ProGen2在质量、多样性和新颖性方面提供了平衡的性能(下图)。
DPLM在所有长度上都显示出最高的质量得分,表明其在序列生成准确性方面优于其他模型。
EvoDiff在多样性方面表现出色,尤其是在产生高度多样化的序列簇方面。
总体而言,DPLM在高度结构化的蛋白质序列生成方面表现出色,而EvoDiff和ESM3在提供更好的多样性和新颖性方面更为可取,ProGen2则在各项指标上提供了平衡的性能。
<<< 左右滑动见更多 >>>
3.1.4 结构-序列共设计 (Struct-seq Co-design)
ProteinGenerator和Multiflow在所有测试的序列长度上均展现出强大的结构-序列兼容性,具有高scTM得分和相对较低的scRMSD值,表明它们在生成序列方面具有优越的结构质量(下图)。
ProteinGenerator特别擅长短序列长度,显示出质量与多样性之间的平衡性能。
Multiflow即使在序列长度增加时也保持高性能,显示出其在生成高质量结构方面的稳健性。
ProtPardelle和ESM3随着序列长度的增加,性能有所下降,这表明它们在维持较长序列的结构质量方面存在挑战。
这里并没将最近力文所的Pallatom加入对比。
<<< 左右滑动见更多 >>>
3.1.5 基序框架设计 (Motif Scaffolding)
基于结构的方法(如RFdiffusion、TDS和FrameFlow)在大多数情况下表现良好,具有在生成可设计骨架方面的高效性(下图)。
基于序列的方法(如EvoDiff和DPLM)在某些主要由进化约束控制的骨架上表现出色,但在具有更复杂结构基序的其他骨架上表现不佳。
ESM3作为一个多模态蛋白质语言模型,能够在大多数情况下生成设计良好的骨架,其性能与更高级的结构基础模型相当。
<<< 左右滑动见更多 >>>
3.1.6 抗体设计 (Antibody Design)
dyMEAN和MEAN在序列和结构的准确性上表现最佳,而DiffAb在TM得分上表现最好(下图)。
在功能性方面,所有方法产生的抗体与给定抗原的结合能量都显著高于自然抗体,其中AbDPO和AbDPO++在结合能量方面表现最佳。
在特异性方面,MEAN和dyMEAN生成的抗体序列对不同抗原的相似性较高,而DiffAb和AbDPO在生成特异性抗体方面表现更好。在合理性方面,HERN在序列自然度上表现最佳,而AbDPO++在结构和序列一致性方面表现最好。
<<< 左右滑动见更多 >>>
3.2 蛋白构象预测
3.2.1 单状态预测 (Protein Folding)
基于多序列比对(MSA)的折叠模型,如AlphaFold2和OpenFold,优于基于蛋白质语言模型的折叠模型,如ESMFold和EigenFold(下图)。
AlphaFold2和OpenFold在所有准确性指标上均展现出最佳性能。
除了EigenFold之外,其他模型在预测结构的质量方面表现相当,α碳原子之间的冲突或断裂很少。EigenFold由于其设计上的一些限制(如使用粗粒化表示,仅包含α碳原子,模型大小较小),其性能可能受限。
<<< 左右滑动见更多 >>>
3.2.2 多状态预测 (Multiple-state Prediction)
基于AlphaFold2模型的MSA子采样方法在预测配体结合诱导的构象变化(apo-holo)方面表现最佳。
尽管通过减少MSA深度可以提高样本多样性,但这种策略并没有显著提高模型在apo-holo构象挑战中的性能。此外,Str2Str模型在预测apo或holo结构方面表现不佳。
在BPTI数据集上,ConfDiff模型(特别是ESM-Force版本)在整体准确性方面表现最佳,表明纳入物理信息可以提高高准确性构象的采样。
然而,在apo-holo数据集上,即使是表现最好的模型也难以超越“完美”折叠模型,表明现有的蛋白质构象模型在预测apo-holo构象变化方面仍然面临挑战(下图)。
<<< 左右滑动见更多 >>>
3.2.3 分布预测 (Distribution Prediction)
基于序列的生成模型(如AlphaFlow/ESMFlow和ConfDiff)在几乎所有准确性指标上都比基于扰动的方法(如MSA子采样和Str2Str)表现得更好。
特别是,选择强大的基础折叠模型(例如AlphaFold或OpenFold)以及在MD构象数据上进行微调处理,这两个因素一致地提高了模型的性能(下图)。
<<< 左右滑动见更多 >>>
4. 总结展望
4.1 主要观察和结论
评估方法的重要性:有效的蛋白质基础模型评估需要正确且全面的评估指标。尽管先进的折叠模型(如AlphaFold2和ESMFold)为蛋白质生成任务的准确性提供了机会,但仍需开发更精确的评估方法以适应复杂的结构预测任务。
模型选择与应用对齐:没有单一模型在所有蛋白质设计目标上都表现出色。研究者在选择模型时应考虑特定的设计目标,如语言模型在捕捉自然进化分布方面表现出色,而基于结构的模型在去新设计任务中展现出更大的鲁棒性。
蛋白质构象预测的挑战:尽管基于经典折叠模型的生成模型展示了采样蛋白质构象的能力,但在多重状态预测和分布预测方面仍存在挑战。当前模型的性能与分子动力学模拟相比仍有明显差距。
4.2 未来工作的方向:
模型和数据集的扩展:未来的工作应包括更多的蛋白质基础模型,并考虑标准化训练数据集,以便更准确地比较不同模型架构的性能。
任务范围的扩大:ProteinBench基准测试可以进一步扩展,包括更广泛的任务,以增加其范围和实用性。
持续改进基准测试:作者承诺不断改进和扩展ProteinBench,使其成为一个动态发展的基准测试,以加速蛋白质建模和设计领域的发展。
新任务范式的开发:为了克服当前抗体设计等领域的挑战,需要开发新的任务范式,以实现更准确的模型评估和设计。
文献代码
Ye, Fei, et al. "ProteinBench: A Holistic Evaluation of Protein Foundation Models."arXiv:2409.06744 (2024).
https://proteinbench.github.io/
https://huggingface.co/spaces/proteinbench/ProteinBench
往期文章
蛋白设计|综述|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运