AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

文摘 2024-11-12 19:06 山西

AlphaFold3源码终于开放了！

六个月前，AlphaFold3横空出世震撼了整个学术界。AlphaFold的开发人也凭借它在上个月赢得了诺贝尔化学奖。

然而，这个诺奖级AI的「不开源」一直引起学界的不满。谷歌DeepMind只推出了一个免费研究平台「AlphaFold Server」，而且该服务有每日的次数限制。相比于开源的AlphaFold2来说，这种使用方式缺失了很多自由度。

好在它现在终于开源了！开源后，生化医药的科学家们可以在本地部署AlphaFold3，极大地缩短了新药、疫苗等研发进程。

现在，任何人都可以下载AlphaFold3软件代码并进行非商业使用，但目前只有学术背景的科学家可申请访问训练权重。

GitHub上的AlphaFold3开源项目代码目前已斩获1.8k星。

开源项目：https://github.com/google-deepmind/alphafold3

AlphaFold3的「效仿者」们

在过去的几个月中，不少公司都依靠AlphaFold3论文中的伪代码，争相发布了各自受到AlphaFold3启发的类似模型。

比如，获得OpenAI投资的AI生物初创Chai Discovery，就在9月发布了用于分子结构预测的新型多模态基础模型Chai-1，并附带了一份技术报告，比较了Chai-1与AlphaFold等模型的性能。

官网地址：https://www.chaidiscovery.com/

另一家位于美国旧金山的公司Ligo Biosciences则发布了一个无使用限制的AlphaFold3版本。但它尚未具备完整的功能，比如模拟药物和蛋白质以外分子的能力。

项目地址：https://github.com/Ligo-Biosciences/AlphaFold3

其他团队也正在开发没有使用限制的AlphaFold3版本：AlQuraishi希望在年底前推出一个名为OpenFold3的完全开源模型。这将使制药公司能够使用专有数据（例如结合不同药物的蛋白质结构）重新训练模型，从而有可能提高性能。

开源的重要性

过去一年里，许多公司发布了新的生物AI模型，这些公司对开放性采取了不同的态度。

威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter对盈利性公司加入他的领域没有异议——只要他们在期刊和预印本服务器上分享工作时遵循科学界的标准。

「我和其他人希望盈利性公司们也分享关于如何进行预测的信息，并以我们可以审查的方式发布AI模型和代码，」Gitter补充道，「我的团队不会基于无法审查的工具进行构建和使用。」

DeepMind科学AI负责人Pushmeet Kohli表示，几种AlphaFold3复制品的出现表明，即使没有开源代码，该模型也是可复现的。

他补充说，未来他希望看到更多关于出版规范的讨论，因为这一领域越来越多地由学术界和企业研究人员共同参与。

此前，AlphaFold2的开源推动了其他科学家的大量创新。

例如，最近一次蛋白质设计竞赛的获胜者使用该AI工具设计出能够结合癌症靶标的新蛋白质。

AlphaFold项目的负责人Jumper最喜欢的一个AlphaFold2创新，是一个团队使用该工具识别出一种帮助精子附着在卵细胞上的关键蛋白。

Jumper迫不及待地想看到在分享AlphaFold3后出现这样的惊喜。

安装和运行

安装AlphaFold3需要一台运行Linux的机器；AlphaFold3不支持其他操作系统。

完整安装需要多达1TB的磁盘空间来存储基因数据库（建议使用SSD存储）以及一块具有计算能力8.0或更高的 NVIDIA GPU（具有更多内存的GPU可以预测更大的蛋白质结构）。

经过验证，单个NVIDIA A100 80 GB或NVIDIA H100 80 GB可以适配最多5120个token的输入。在NVIDIA A100和H100 GPU上的数值准确性也已被验证。

尤其是对于较长的目标，基因搜索阶段可能会消耗大量RAM——建议至少使用64GB的RAM运行。

配置步骤：

1. 在GCP上配置机器

2. 安装Docker

3. 为A100安装NVIDIA驱动程序

4. 获取基因数据库

5. 获取模型参数

6. 构建AlphaFold3 Docker容器或Singularity镜像

获取AlphaFold3源代码

通过git下载AlphaFold3的代码库：

git clone https://github.com/google-deepmind/alphafold3.git

获取基因数据库

此步骤需要「curl」和「zstd」。

AlphaFold3需要多个基因（序列）蛋白质和RNA数据库来运行：

- BFD small

- MGnify

- PDB（mmCIF格式的结构）

- PDB seqres

- UniProt

- UniRef90

- NT

- RFam

- RNACentral

Python程序「fetch_databases.py」可以用来下载和设置所有这些数据库。

建议在「screen」或「tmux」会话中运行以下命令，因为下载和解压数据库需要一些时间。完整数据库的总下载大小约为252GB，解压后的总大小为630GB。

cd alphafold3  # Navigate to the directory with cloned AlphaFold3 repository.python3 fetch_databases.py --download_destination=<DATABASES_DIR>

该脚本从托管在GCS上的镜像下载数据库，所有版本与AlphaFold3论文中使用的相同。

脚本完成后，应该有以下目录结构：

pdb_2022_09_28_mmcif_files.tar  # ~200k PDB mmCIF files in this tar.bfd-first_non_consensus_sequences.fastamgy_clusters_2022_05.fant_rna_2023_02_23_clust_seq_id_90_cov_80_rep_seq.fastapdb_seqres_2022_09_28.fastarfam_14_9_clust_seq_id_90_cov_80_rep_seq.fastarnacentral_active_seq_id_90_cov_80_linclust.fastauniprot_all_2021_04.fauniref90_2022_05.fa

获取模型参数

访问AlphaFold3模型参数需要向Google DeepMind申请并获得授权。

数据管线

数据管线的运行时间（即基因序列搜索和模板搜索）可能会因输入的大小、找到的同源序列数量以及可用的硬件（磁盘速度尤其会影响基因搜索的速度）而显著变化。

如果想提高性能，建议提高磁盘速度（例如通过利用基于RAM的文件系统），或增加可用的CPU核心并增加并行处理。

此外，请注意，对于具有深度MSA的序列，Jackhmmer或Nhmmer可能需要超出推荐的64 GB RAM的大量内存。

模型推理

AlphaFold3论文的补充信息中的表8提供了在配置为运行在16个NVIDIA A100上时的AlphaFold3的无需编译的推理时间，每个设备具有40GB的内存。

相比之下，该存储库支持在单个NVIDIA A100上运行AlphaFold3，具有80GB内存，并在配置上进行了优化以最大化吞吐量。

下表中使用GPU秒（即使用16个A100时乘以16）比较了这两种设置的无需编译的推理时间。该存储库中的设置在所有token大小上效率更高（提高至少2倍），表明其适合高吞吐量应用。

硬件要求

AlphaFold3正式支持以下配置，并已对其进行了广泛的数值准确性和吞吐量效率测试：

- 1 NVIDIA A100（80GB）

- 1 NVIDIA H100（80GB）

通过以下配置更改，AlphaFold3可以在单个NVIDIA A100 (40GB) 上运行：

1. 启用统一内存。

2. 调整model_config.py中的pair_transition_shard_spec：

pair_transition_shard_spec: Sequence[_Shape2DType] = (      (2048, None),      (3072, 1024),      (None, 512),  )

虽然数值上准确，但由于可用内存较少，因此与NVIDIA A100 (80GB) 的设置相比，该配置的吞吐量会较低。

虽然也可以在单个NVIDIA V100上使用run_alphafold.py中的--flash_attention_implementation=xla来运行长度最多为1280 token的AlphaFold3，但此配置尚未经过数值准确性或吞吐量效率的测试，因此请谨慎操作。

参考资料：

https://www.nature.com/articles/d41586-024-03708-4

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：新智元

http://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247575946&idx=2&sn=ac8b86e1435801da7a309f6be4f10aeb

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

最新文章

OpenAI「23个黑手党」出走创业，融资近百亿！华人科学家约占1/3

10种数据预处理中的数据泄露模式解析:识别与避免策略

「谍战」开启！基建狂魔马斯克122天交付10万卡超算，对手大恐慌派间谍飞机侦查

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

Github上的十大RAG(信息检索增强生成)框架

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

ChatGPT深夜两弹更新！macOS版联动三款IDE无缝编程，Windows版全量上线

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

哈佛推出全新类ChatGPT癌症诊断AI，登上Nature！准确率高达96%

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

川普赢了，AI圈炸了！英伟达市值突破3.6万亿， OpenAI研究员：他或将见证AGI诞生

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

特朗普回归，美国AI解禁！马斯克变身全球首富，硅谷科技圈颠覆在即

软体机器人领域顶尖学者齐聚清华！第九届软体机器人大会将于11月15—17日在清华举行

从今天起，ChatGPT入口就是chat.com！

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

英伟达3.4万亿市值稳坐全球第一！苹果12年霸主地位终结

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

AI圈卷疯了！xAI、Anthropic同日上线API：Grok免费公测，Claude 3.5 Haiku价格暴涨

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

世界首个1000亿AI智能体文明诞生！北大校友打造真实版「西部世界」，技术细节全公开

o1图像理解神秘现身，网友疯狂测试！Altman自曝：o2研究生级水平破105%

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

KDD 2024 | 数据驱动的分布偏移检测与自适应

苹果地表最强AI PC诞生，M4 Max猛兽加持性能暴涨！顶配6万，续航飙至24小时

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉