AF3的复现进展
The Race to Reproduce AF3
自2024年5月8日发布AlphaFold 3模型以来,一场竞赛一直在悄悄的进行着,即尽快完全复制和开源该模型的竞赛。本文旨在于归纳一下截止目前,AF3复现的工作和模型。
背景
今年5月8日,DeepMind和isomphic发布了AlphaFold 3,这个最新模型能够准确地模拟生命的所有生物分子的相互作用。当时,我写了一篇文章《AF3万字长文解读》,最近也写了2万字《图解AF3》解读AF3的模型原理。但都巧妙地避免了一个的重大问题:缺乏开源代码和经过训练的模型权重checkpoint。
作为回应,几个团队一直在竞相成为第一个完全复现AF3。理想情况下,以广泛可访问的格式开放该模型的源代码,这将为BioML和生命科学研究社区和行业带来重大利益。
几个月来,该领域一直保持相对安静的状态。直到9月中国科技公司百度发布的HelixFold3模型,引发了进一步的连锁反应。本文旨在归纳截止目前AF3的复现项目,并概述到目前为止这些团队发布了些什么。目前主要有4个团队发布了AF3的复现模型,后文也会一一简单讲解。这些复现项目归纳的信息如下:
名称 | Chai-1 | lucidrains | Ligo Biosciences | HelixFold3 |
---|---|---|---|---|
团队 | Chai Discovery | Ligo Biosciences | 百度 | |
论文 | https://www.biorxiv.org/content/10.1101/2024.10.10.615955v2 | N/A | N/A | https://arxiv.org/abs/2408.16975 |
仓库 | https://github.com/chaidiscovery/chai-lab | https://github.com/lucidrains/alphafold3-pytorch | https://github.com/Ligo-Biosciences/AlphaFold3/tree/main | https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold3 |
Web server | https://lab.chaidiscovery.com/auth/login?callbackUrl=https://lab.chaidiscovery.com/dashboard | N/A | N/A | https://paddlehelix.baidu.com/app/all/helixfold3 |
Star数量 | 1,100+ | 1,100+ | 827 | ~200* |
权重 | 自动下载权重 | N/A | N/A | https://paddlehelix.bd.bcebos.com/HelixFold3/params/HelixFold3-params-240814.zip |
备注 | 可本地安装使用 | 更新中,需自己训模型 | 目前仅支持单链,需申请使用 | 可本地安装使用 |
就像之前的AlphaFold 2一样,我相信开源这些模型将大大加快生物学和 BioML 的研究进展,为大量新的研究和应用铺平道路。
AlphaFold3-pytorch
仓库:https://github.com/lucidrains/alphafold3-pytorch 论文:无 网页:无 权重:无 备注:需自行训练
大佬 lucidrains 之前在 AlphaFold2 未开源之前,也复现过 AF2 的代码,广受好评。所以在 AlphaFold3 论文发布后,大佬 lucidrains 第一时间迅速创建了 alphafold3-pytorch 代码库,并持续进行日常更新,也获得了极高的人气和共同开发者。此外,此项目还有吸引了一些专家的加入:
Alex Rogozhnikov,俄罗斯籍,Einops库的开发者,这是一个用于张量操作的流行工具。他在今年3月加入了一家神秘的蛋白质设计初创公司,该公司目前处于隐身模式,可能在秘密开发重要技术。
Patrick Kidger,博士,专注于神经微分方程的研究,并是JAX库的倡导者。他目前任职于蛋白质设计公司Cradle,该公司利用生成式人工智能进行蛋白质的设计和制造,并于去年11月完成了2400万美元的A轮融资。
吴凡迪(Fandi Wu),腾讯 tFold 项目的主要贡献者。
陆威(Wei Lu),之前参与过AI蛋白小分子全柔性对接算法DynamicBind
Chai-1
仓库:https://github.com/chaidiscovery/chai-lab 论文:https://doi.org/10.1101/2024.10.10.615955 网页:https://lab.chaidiscovery.com 权重:自动下载 备注:可本地安装使用 报道:《突破性的多模态基础模型Chai-1》
另外一个开源的项目是 Chai discovery,一直在隐形模式下运营的初创公司。在OpenAI、Thrive和Dimension Capital的支持下,他们刚刚公布了他们的 AF3 复现模型,Chai-1。这个版本特别令人兴奋,就在我开始写这篇文章的前一天。除了这个模型,该团队还发布了一个技术报告 [1] ,其中提供了一些关于他们方法原理的阐述,并包括对结果深思熟虑的讨论。
Chai Discovery已经在GitHub上提供了他们的模型供本地使用,尽管没有提供源代码本身,只有导出的模型可以访问。根据我的经验,它非常容易使用上手十分容易,很大程度上是因为该模型利用蛋白质语言模型ESM来计算蛋白质嵌入Embedding,从而绕过了构建整个多序列比对 MSA 的步骤,MSA 检索通常是运行AlphaFold模型最耗时的部分。
注意的是,他们还一并提供了类似 AF3 模型的 web 服务器 [4]。虽然协议说了非商业用途,然而他们提供的web界面,似乎完全开放使用,包括商业应用比如药物发现。
从上图可见,在许多任务中,Chai-1性能似乎都很好,在PoseBusters数据集上与AF3比较时,蛋白质-配体对接的性能比AF3还好。但没有核酸和抗体的Benchmark。Chai-1对计算成本有一个准确的估计,他们使用128开A100 GPU 训练了30天 (约75%的AF3成本),因此对于我们大多数人来说,训练此模型仍然是遥不可及的。
他们还具有非常酷的一个能力,可以根据实验数据来约束结构预测,从而使此类数据的持有者,在困难的蛋白上具有更多的优势。他们在报纸上很好地解释了这一点: 我们还添加了新的训练功能,旨在模仿实验约束。这些包括口袋,接触和对接约束,它们捕获复杂实体之间交互的不同粒度。在推断过程中,可以使用从氢-氘交换,质谱或交联质谱等实验中获得的先验知识或信息来指定这些约束。Chai-1的这一点很类似CloabDock算法。
Ligo Biosciences
仓库:https://github.com/Ligo-Biosciences/AlphaFold3/tree/main 论文:无 网页:无 权重:需申请 备注:目前还仅支持单链 报道:《3位牛津本科生学霸,4个月复现AF3并开源》
Ligo Biosciences,是由牛津大学3位本科生创立的 AI 驱动的酶工程初创公司。采用Apache 2.0协议,可用于非商业和商业用途。
该项目仍处于早期阶段,虽然尚未投入生产,但该团队已成功实现了能够进行单链蛋白预测的AlphaFold3复现版本,虽然尚未提供采样代码。此项目需要注意的是,它没有对配体,多聚体,核酸预测进行支持,并且没有正式的基准测试 Benchmark 和 模型论文。
示例视频确实包含一个非常明显的链断裂。虽然没有适当的 Benchmark,并且有趣的是,他们在 “仅” 8卡A100 GPU上进行10小时的训练去预测结构。所以其他人低成本的复现 AF3 还是有希望的!
代码仓库的提交历史表明,该项目的大部分开发都是由一个人(Arda)完成的。
该公司还利用此版本的 AF3 宣布与 Basecamp Research 建立合作伙伴关系,Basecamp Research是另一家 TechBio 初创公司,拥有来自全球异国环境的大量私人序列数据。
HelixFold3
仓库:https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold3 论文:arXiv:2408.16975 网页:https://paddlehelix.baidu.com/app/all/helixfold3 权重:https://paddlehelix.bd.bcebos.com/HelixFold3/params/HelixFold3-params-240814.zip 备注:可本地安装使用 报道:《全球首个完整复现AF3的模型HelixFold3》
AF3 复现的竞赛的首先是由百度推出的,他们率先发布了 AF3 克隆版本 Helixfold3。对于那些不熟悉该领域的人来说,百度似乎是一个意想不到的先行者。然而,他们有一个名为PaddleHelix的团队,提供各种 BioML 模型的服务。
HelixFold3 附有简短的6页技术报告arXiv [2],只有3页的实际文本。该报告没有详细描述所使用的方法,只是指出它们是 “从AlphaFold 3论文中获得的见解”,并且几乎没有讨论结果。尽管如此,该模型在蛋白质-配体对接中的性能似乎略低于AlphaFold3和预测的置信度指标。
此外,值得一提的是,HelixFold3还不支持翻译后修饰,并且该论文不包括抗体的基准测试Benchmark。这种遗漏可能是由于计算成本,因为 AlphaFold3 在抗体上的性能只有在从模型中采样1000次时才达到的。
结语
随着竞争的升温,其他复现工作也渴望尽快发布他们的模型,每个人都争相将他们的版本作为新标准。我们目前还没有收到David baker实验室或OpenFold的复现版本,虽然我们确信他们正在做这件事情。
截至目前,DeepMind尚未提供任何有关其发布模型代码和权重的计划。之前说6个月内开源,这意味着最迟在11月中旬发布,让我们拭目以待。
文献代码
[1] Chai-1: Decoding the molecular interactions of life.
[2] Technical Report of HelixFold3 for Biomolecular Structure Prediction
[3] https://github.com/lucidrains/alphafold3-pytorch
[4] https://github.com/chaidiscovery/chai-lab
[5] https://github.com/Ligo-Biosciences/AlphaFold3/tree/main
[6] https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold3
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运