AF3|复现进展

文摘   2024-10-25 00:02   广东  

AF3的复现进展

The Race to Reproduce AF3

自2024年5月8日发布AlphaFold 3模型以来,一场竞赛一直在悄悄的进行着,即尽快完全复制和开源该模型的竞赛。本文旨在于归纳一下截止目前,AF3复现的工作和模型

背景

今年5月8日,DeepMind和isomphic发布了AlphaFold 3,这个最新模型能够准确地模拟生命的所有生物分子的相互作用。当时,我写了一篇文章《AF3万字长文解读》,最近也写了2万字《图解AF3》解读AF3的模型原理。但都巧妙地避免了一个的重大问题:缺乏开源代码和经过训练的模型权重checkpoint

作为回应,几个团队一直在竞相成为第一个完全复现AF3。理想情况下,以广泛可访问的格式开放该模型的源代码,这将为BioML和生命科学研究社区和行业带来重大利益。

几个月来,该领域一直保持相对安静的状态。直到9月中国科技公司百度发布的HelixFold3模型,引发了进一步的连锁反应。本文旨在归纳截止目前AF3的复现项目,并概述到目前为止这些团队发布了些什么。目前主要有4个团队发布了AF3的复现模型,后文也会一一简单讲解。这些复现项目归纳的信息如下:

名称Chai-1lucidrainsLigo BiosciencesHelixFold3
团队Chai Discovery
Ligo Biosciences百度
论文https://www.biorxiv.org/content/10.1101/2024.10.10.615955v2N/AN/Ahttps://arxiv.org/abs/2408.16975
仓库https://github.com/chaidiscovery/chai-labhttps://github.com/lucidrains/alphafold3-pytorchhttps://github.com/Ligo-Biosciences/AlphaFold3/tree/mainhttps://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold3
Web serverhttps://lab.chaidiscovery.com/auth/login?callbackUrl=https://lab.chaidiscovery.com/dashboardN/AN/Ahttps://paddlehelix.baidu.com/app/all/helixfold3
Star数量1,100+1,100+827~200*
权重自动下载权重N/AN/Ahttps://paddlehelix.bd.bcebos.com/HelixFold3/params/HelixFold3-params-240814.zip
备注可本地安装使用更新中,需自己训模型目前仅支持单链,需申请使用可本地安装使用

就像之前的AlphaFold 2一样,我相信开源这些模型将大大加快生物学和 BioML 的研究进展,为大量新的研究和应用铺平道路。

AlphaFold3-pytorch

  1. 仓库https://github.com/lucidrains/alphafold3-pytorch
  2. 论文:无
  3. 网页:无
  4. 权重:无
  5. 备注:需自行训练

大佬 lucidrains 之前在 AlphaFold2 未开源之前,也复现过 AF2 的代码,广受好评。所以在 AlphaFold3 论文发布后,大佬 lucidrains 第一时间迅速创建了 alphafold3-pytorch 代码库,并持续进行日常更新,也获得了极高的人气和共同开发者。此外,此项目还有吸引了一些专家的加入:

  • Alex Rogozhnikov,俄罗斯籍,Einops库的开发者,这是一个用于张量操作的流行工具。他在今年3月加入了一家神秘的蛋白质设计初创公司,该公司目前处于隐身模式,可能在秘密开发重要技术。

  • Patrick Kidger,博士,专注于神经微分方程的研究,并是JAX库的倡导者。他目前任职于蛋白质设计公司Cradle,该公司利用生成式人工智能进行蛋白质的设计和制造,并于去年11月完成了2400万美元的A轮融资。

  • 吴凡迪(Fandi Wu),腾讯 tFold 项目的主要贡献者。

  • 陆威(Wei Lu),之前参与过AI蛋白小分子全柔性对接算法DynamicBind

Chai-1

  1. 仓库https://github.com/chaidiscovery/chai-lab
  2. 论文https://doi.org/10.1101/2024.10.10.615955
  3. 网页https://lab.chaidiscovery.com
  4. 权重:自动下载
  5. 备注可本地安装使用
  6. 报道《突破性的多模态基础模型Chai-1》

另外一个开源的项目是 Chai discovery,一直在隐形模式下运营的初创公司。在OpenAI、Thrive和Dimension Capital的支持下,他们刚刚公布了他们的 AF3 复现模型,Chai-1。这个版本特别令人兴奋,就在我开始写这篇文章的前一天。除了这个模型,该团队还发布了一个技术报告 [1] ,其中提供了一些关于他们方法原理的阐述,并包括对结果深思熟虑的讨论。

Chai Discovery已经在GitHub上提供了他们的模型供本地使用,尽管没有提供源代码本身,只有导出的模型可以访问。根据我的经验,它非常容易使用上手十分容易,很大程度上是因为该模型利用蛋白质语言模型ESM来计算蛋白质嵌入Embedding,从而绕过了构建整个多序列比对 MSA 的步骤,MSA 检索通常是运行AlphaFold模型最耗时的部分。

注意的是,他们还一并提供了类似 AF3 模型的 web 服务器 [4]。虽然协议说了非商业用途,然而他们提供的web界面,似乎完全开放使用,包括商业应用比如药物发现。

上图可见,在许多任务中,Chai-1性能似乎都很好,在PoseBusters数据集上与AF3比较时,蛋白质-配体对接的性能比AF3还好。但没有核酸和抗体的Benchmark。Chai-1对计算成本有一个准确的估计,他们使用128开A100 GPU 训练了30天 (约75%的AF3成本),因此对于我们大多数人来说,训练此模型仍然是遥不可及的。

他们还具有非常酷的一个能力,可以根据实验数据来约束结构预测,从而使此类数据的持有者,在困难的蛋白上具有更多的优势。他们在报纸上很好地解释了这一点: 我们还添加了新的训练功能,旨在模仿实验约束。这些包括口袋,接触和对接约束,它们捕获复杂实体之间交互的不同粒度。在推断过程中,可以使用从氢-氘交换,质谱或交联质谱等实验中获得的先验知识或信息来指定这些约束。Chai-1的这一点很类似CloabDock算法

Ligo Biosciences

  1. 仓库https://github.com/Ligo-Biosciences/AlphaFold3/tree/main
  2. 论文:无
  3. 网页:无
  4. 权重:需申请
  5. 备注:目前还仅支持单链
  6. 报道《3位牛津本科生学霸,4个月复现AF3并开源》

Ligo Biosciences,是由牛津大学3位本科生创立的 AI 驱动的酶工程初创公司。采用Apache 2.0协议,可用于非商业和商业用途。

该项目仍处于早期阶段,虽然尚未投入生产,但该团队已成功实现了能够进行单链蛋白预测的AlphaFold3复现版本,虽然尚未提供采样代码。此项目需要注意的是,它没有对配体,多聚体,核酸预测进行支持,并且没有正式的基准测试 Benchmark 和 模型论文。

示例视频确实包含一个非常明显的链断裂。虽然没有适当的 Benchmark,并且有趣的是,他们在 “仅” 8卡A100 GPU上进行10小时的训练去预测结构。所以其他人低成本的复现 AF3 还是有希望的!

代码仓库的提交历史表明,该项目的大部分开发都是由一个人(Arda)完成的。

该公司还利用此版本的 AF3 宣布与 Basecamp Research 建立合作伙伴关系,Basecamp Research是另一家 TechBio 初创公司,拥有来自全球异国环境的大量私人序列数据。

HelixFold3

  1. 仓库https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold3
  2. 论文arXiv:2408.16975
  3. 网页https://paddlehelix.baidu.com/app/all/helixfold3
  4. 权重https://paddlehelix.bd.bcebos.com/HelixFold3/params/HelixFold3-params-240814.zip
  5. 备注可本地安装使用
  6. 报道《全球首个完整复现AF3的模型HelixFold3》

HelixFold3在蛋白质-配体对接时的性能

AF3 复现的竞赛的首先是由百度推出的,他们率先发布了 AF3 克隆版本 Helixfold3。对于那些不熟悉该领域的人来说,百度似乎是一个意想不到的先行者。然而,他们有一个名为PaddleHelix的团队,提供各种 BioML 模型的服务。

HelixFold3 附有简短的6页技术报告arXiv [2],只有3页的实际文本。该报告没有详细描述所使用的方法,只是指出它们是 “从AlphaFold 3论文中获得的见解”,并且几乎没有讨论结果。尽管如此,该模型在蛋白质-配体对接中的性能似乎略低于AlphaFold3和预测的置信度指标。

此外,值得一提的是,HelixFold3还不支持翻译后修饰,并且该论文不包括抗体的基准测试Benchmark。这种遗漏可能是由于计算成本,因为 AlphaFold3 在抗体上的性能只有在从模型中采样1000次时才达到的。

结语

随着竞争的升温,其他复现工作也渴望尽快发布他们的模型,每个人都争相将他们的版本作为新标准。我们目前还没有收到David baker实验室或OpenFold的复现版本,虽然我们确信他们正在做这件事情。

截至目前,DeepMind尚未提供任何有关其发布模型代码和权重的计划。之前说6个月内开源,这意味着最迟在11月中旬发布,让我们拭目以待。

文献代码

[1] Chai-1: Decoding the molecular interactions of life.

[2] Technical Report of HelixFold3 for Biomolecular Structure Prediction

[3] https://github.com/lucidrains/alphafold3-pytorch

[4] https://github.com/chaidiscovery/chai-lab

[5] https://github.com/Ligo-Biosciences/AlphaFold3/tree/main

[6] https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold3

往期合集

干货文章线上报告蛋白设计综述BinderCo-designBenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

关注我们

死磕自己,愉悦大家

专注于AI蛋白相关的论文解读&学术速运

历史文章

  1. AlphaFold3 图解

  2. AlphaFold3 万字长文解读

  3. AlphaFold3 预测蛋白突变亲和力变化?

  4. 一文看懂 Binder 设计

  5. 蛋白结构和序列的共同设计

  6. 深度学习如何助力抗体设计

  7. 蛋白计算海内外课题组汇总

  8. Meta AI 蛋白语言模型ESM系列

  9. COMPSS 酶蛋白从头设计的筛选方法

  10. 简述酶的定向进化

  11. Cell 综述:从头蛋白设计之结构到功能

  12. CSH 综述文章:结构预测与蛋白设计

  13. CSH 综述文章:蛋白质序列的生成模型

  14. Nat. Biotech. 蛋白设计专刊

  15. Nat. Biotech. 深度学习与功能蛋白设计

  16. Nat. Biotech. 功能蛋白从头设计的星火

  17. ProteinBench 蛋白设计最全的Benchmark

  18. ProteinGym 蛋白突变最好的Benchmark

  19. DiG 预测蛋白构象分布

  20. MaSIF 基于表面指纹的蛋白从头设计

  21. SaProt 结构感知的蛋白质语言模型

  22. InstructPLM 语言模型与逆向折叠的结合

  23. CRISPR-GPT 基因编辑的大模型智能体

AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章