NATURE丨使用 AlphaFold 3 准确预测生物分子相互作用的结构

学术 2024-07-14 18:00 浙江

大家好，今天分享的文献是2024年5月发表在Nature上的“ Accurate structure prediction of biomolecular interactions with AlphaFold 3”。

1. 有关作者

DeepMind公司，AlphaFold系列模型的开发者，不仅以其知名的AlphaGo闻名，还在2016年将业务拓展至AI与结构生物学的结合。最近AlphaFold 3成功预测了几乎所有生物大分子的相互作用结构，DeepMind在结构生物学领域取得了突破性进展。

2. 背景介绍

传统上，我们依赖X射线晶体学、核磁共振（NMR）和冷冻电镜技术来解析蛋白质结构。AlphaFold 2的预测精度已与这些传统方法相媲美。而AlphaFold 3不仅能预测蛋白质结构，还通过单一深度学习框架，准确预测了PDB数据库中几乎所有分子的高精结构和相互作用，为药物研发开辟了新路径，有潜力彻底改变传统药物研发方式。

图1|a，DNA和cGMP复合物；b，冠状病毒OC43刺突蛋白；灰色为共晶。

3. 模型架构

AlphaFold 3（AF3）在AlphaFold 2的基础上进行了优化和训练，不仅支持更多种类的分子，还提升了训练效率。它能够预测所有生物大分子之间的相互作用结构，得益于其更灵活和通用的设计：

令牌化方案：AlphaFold 3采用通用的令牌化策略，为每种分子类型（标准氨基酸、核苷酸和其他分子）分配独特标识符。蛋白质的每个氨基酸残基、核酸的每个核苷酸以及其他分子的每个重原子都对应一个令牌，使模型能够处理多种生物大分子。
相对位置编码：AlphaFold 3引入了相对位置编码技术，专门用于同一残基内的令牌，以解决对称性问题，帮助模型更准确地处理具有对称性的分子结构。
输入特征嵌入器：AlphaFold 3设计了复杂的输入特征嵌入器，通过注意力机制对所有原子进行操作，编码化学结构信息，形成统一的表示，使模型能够捕捉不同类型分子的结构和相互作用细节。

图1d｜AF3的架构。矩形表示处理模块，箭头表示数据流向。黄色：输入数据，蓝色：抽象网络激活，绿色：输出数据。彩色代表分子物理原子坐标。

AlphaFold 3（AF3）的改进在确保性能的同时，简化了模型架构，使其能够适应各类生物分子。以下是AF3的架构流程：

1. 搜索与构象生成：通过基因搜索在数据库中寻找与目标序列相似的蛋白质或RNA链；模板搜索为单链蛋白质提供模板信息辅助预测；构象生成根据CCD代码或SMILES字符串生成参考构象。

2. 输入嵌入器：将所有分子的化学结构信息编码，并通过注意力机制处理所有原子，形成统一表示(single representation)，同时构建对表示(pair representation)，这些表示随后输入到调节网络进行循环处理。

3. 调节网络：由模板模块和MSA模块构成，分别编码模板和MSA信息到pair表示中，主要针对蛋白质和RNA序列。生成的pair表示作为输出，也是Pairformer模块的输入。

4. Pairformer模块：接收单表示和调节网络生成的pair表示，构成AF3的主循环，输出经过循环处理的single/pair嵌入。

5. 扩散模块：以single/pair嵌入为输入，进行调节扩散过程，最终输出蛋白质结构。

6. 置信度模块：接收pair表示、单表示和扩散模块的结构位置向量，计算置信度度量，如pLDDT、PAE、PDE等，这些度量帮助评估预测的可靠性，并指导样本排序和结构选择。

算法1|AF3的整体框架伪代码

4. 模型表现

如图3所示为AF3所进行的一系列结构预测示例，AF3可以根据输入的氨基酸序列、残基修饰、配体SMILES进行结构预测。

图3｜AF3的结构预测示例。

a，7663个残基的40S小核糖体亚基蛋白、不透明蓝色的翻译始因子eIF1A和eIF5B、紫色为18S核糖体RNA、不透明紫色的Met-tRNA，复合物置信度LDDT=87.7。

b，糖基化的EXTL3二聚体，与共晶RMSD=1.1Å。

c，间皮素C端肽，与单克隆抗体15B6 结合，DockQ为0.85。

d，临床阶段抑制剂LGK974与带有WNT3A肽的PORCN蛋白结合形成复合物，小分子RMSD=1Å。

e，(5S,6S)-O7-sulfo DADH与AziU3/U2的复合体，与共晶RMSD=1.92Å。

f，NIH-12848类似物与PI5P4Kγ变构位点结合，与共晶RMSD=0.37Å。

4.1 蛋白质-小分子配体结构预测

AlphaFold 3（AF3）在PoseBusters数据集上进行了160项蛋白质-配体结构预测评估。该数据集包含428个蛋白质-配体结构，其中161个结构是在2021年之后加入蛋白质数据银行（PDB）的。为确保评估的准确性，训练了一个独立的AF3版本，避免使用这些新加入的数据。评估结果显示，AF3在配体的均方根偏差（RMSD）小于2埃的成功率上，明显超过了基于结构的Vina和RFAA模型。

图1c，蛋白-小分子｜在PoseBusters数据集上AF3的成功率。纵坐标成功率定义为配体RMSD < 2 Å 的百分比，N表示靶点的数量。

4.2 蛋白质-核酸符合物或RNA单体

AF3能够比RoseTTAFold2NA更准确地预测蛋白质-核酸复合物和 RNA 结构(下面的图1c)。我们没有与RFAA比较，因为RFAA精度低于RoseTTAFold2NA。从下图可见，AF3的蛋白-核酸对接成功率远远高于RoseTTAFold2NA算法。

图1c，核酸相关相互作用｜PDB数据库中蛋白-RNA，蛋白-双链DNA；CSAP15比赛中RNA单体的成功率。成功率针对复合物是iterface LDDT，单体RNA仅为LDDT。N表示靶点的数量。

此外还评估了CASP15的10个RNA单体，与RoseTTAFold2NA和AIchemy_RNA2对比，AIchemy_RNA2表现出更加优异的性能(上图c，右边)，详细结果在拓展图5a。

拓展图5a｜在CSAP 15 RNA数据集上，AF3和RoseTTAFold2NA和AIchemy_RNA2对比，横坐标是10个RNA编号。纵坐标分别为LDDT、TM score、GDT等置信度指标。

AF3没有达到人类专家辅助的AIchemy_RNA2的性能 (上图)。单独预测核酸DNA/RNA(没有蛋白质)的准确性LDDT的进一步分析显示在扩展图5b中。

扩展图5b｜在单独核酸DNA/RNA上评估LDDT，AF3与RoseTTAFold2NA对比。

扩展图5c｜蛋白-dsDNA复合物示例，左图以pLDDT绘图，右图以chain绘图。

拓展图d｜预测蛋白-核酸结构的PAE误差，不同颜色代表不同链A/B/C。

4.3 共价修饰

AF3还可以准确预测共价修饰(键合配体、糖基化、修饰的蛋白残基和核酸碱基) (下图 1c)。修饰包括对任何聚合物残基 (蛋白质、RNA或DNA)的修饰。成功率定义为RMSD < 2 Å。

图1c，共价修饰｜纵坐标成功率定义为配体RMSD < 2 Å的百分比，N表示靶点的数量。依次为，蛋白键和小分子、蛋白糖基化、蛋白修饰、DNA/RNA修饰。

扩展图6显示了具有共价修饰的蛋白质、DNA和RNA预测结构的示例，包括分析磷酸化对预测的影响。

拓展图6a｜在磷酸化(SEP、TPO、PTR、NEP、HIP)场景，AF3的预测成功率，PTM代表转录后修饰。

4.4 蛋白-蛋白/蛋白质单体

在提升建模能力的同时，AlphaFold 3（AF3）相较于AlphaFold-Multimer v2.3，在蛋白质复合物的准确度上也取得了显著提升，具体结果展示在下图c。特别是在抗体蛋白质相互作用的预测上，AF3表现出了明显的改进。此外，蛋白质单体的局部距离差异测试（LDDT）得分也有所提高。

图1c，蛋白相关相互作用或单体蛋白｜蛋白Multimer、蛋白-抗体、蛋白单体在Recent PDB评估集上的预测成功率。蛋白Multimer、蛋白-抗体的成功率定义为DockQ > 0.23。蛋白单体使用LDDT指标定义成功率。N表示靶点的数量。

5总结

AlphaFold 3（AF3）作为通用模型，能够预测所有生物大分子的结构，显示出在统一框架内对各种生物分子系统结构的准确预测能力，具有广泛的覆盖率和高度的泛化性。然而，AF3也存在一些局限性：

1. 立体化学局限：AF3在处理手性问题时，即使输入了正确的手性结构，有时仍可能输出违反手性的模型。此外，在蛋白-核酸复合物等情况下，可能产生原子重叠。
2. 幻想问题：从非生成式模型AF2到基于扩散的AF3，引入了无序区域的虚假结构问题。AF3通过使用AF2的预测结果进行蒸馏训练，并引入了增加溶剂接触表面积的惩罚机制来解决这一问题。
3. 动力学问题：AF3主要预测静态结构，无法捕捉生物分子系统在溶液中的动态行为。
4. 特定目标精度问题：在某些情况下，如E3泛素连接酶，AF3可能无法准确模拟其不同状态下的构象，例如可能只预测出与配体结合的封闭状态。
5. 准确性与计算成本：为了提高预测准确性，可能需要生成和评估大量模型结果，导致计算成本显著增加，尤其是在抗体-抗原复合物预测中。

AF3的性能显示，正确的深度学习框架可以减少实现生物学相关性能所需的数据量，并增强已有数据的影响力。未来，开发者计划通过改进结构建模和采用高置信度的实验方法来提高模型的泛化能力。

∨

微信号：HanDa-Lab

课题组网站：https://www.hanlab.net/

撰稿：李长令

校对：何磊

编辑：侯佳宁

∨ 点击“阅读原文”直达文献

http://mp.weixin.qq.com/s?__biz=MzU5OTIzOTU2Nw==&mid=2247490217&idx=1&sn=1b1993e63c53e3d237b684e873772bd0

韩达课题组

最新文章

中国科学院杭州医学研究所韩达课题组博士后招聘公告

PNAS | Zfp106 与RNA G-四链体结合并抑制由 G4C2 重复序列引起的 RAN 翻译和 RNA foci

课题组工作丨ACS Nano丨多重原位成像位点特异性m6A甲基化

Angew | 以突变对抗突变：进化改造核酸适体用于识别 SARS-CoV-2 突变刺突蛋白

JACS | 酶催化驱动的DNA合成的游泳体

分子医学论坛预告丨第60期：吉训明院士带来报告《中国脑血管病特点与防治策略》

Nat Commun | 从头开始的端到端学习与深度几何势能用于RNA 结构的从头预测

Nat Nanotechnol | 原始DNA存储和计算引擎

JACS丨用于核内阻断 RNA 蛋白相互作用的功能性适配体体外进化

Mol Cell | 核内PKM2结合pre-mRNA上的G4显示其基因调控功能

分子医学论坛预告丨第59期：薛文教授带来报告《CRISPR-Based in vivo Genome Editing》

Science | 通过恢复海马体葡萄糖代谢，挽救阿尔茨海默病人的认知功能

JACS丨激光诱导的微尺度相变控制蛋白质凝聚体中的药物分配

Nat Commun丨通过 RNA 转录激活对哺乳动物细胞进行条件性 RNA 干扰

Angew. Chem. Int. Ed.| 使用活性液滴调节核酸催化

分子医学论坛预告丨第58期：肖瑞平教授带来报告《转化医学之旅》

Nature Nanotechnology | 模块化DNA折纸纳米室，用于工程化无细胞、蛋白质展开和降解途径

Nat Biotechnol | 循环延伸扩增以提高质谱流式的检测灵敏度

Angew | 在酿酒酵母菌中构建人工无膜细胞器以提高化学品生产

Nat Nanotechnol丨自主展示细胞毒性配体模式的DNA折纸开关

分子医学论坛预告丨第57期：Taeghwan Hyeon教授带来报告

J Nanobiotechnology | 转铁蛋白受体核酸适体修饰框架核酸用于靶向递送CEBPA-saRNA治疗胰管腺癌

【喜报】课题组成员获国家自然科学基金面上及青年基金项目资助

专题分享丨RNA-seq建库方案

Nature Methods丨利用几何深度学习预测蛋白质-DNA结合特异性

JACS | 相分离调控RNA杂交的热力学和动力学性质

分子医学论坛预告丨第56期：郭德良教授带来《肿瘤脂代谢的新调控及其在癌症中的治疗潜力》

NUCLEIC ACIDS RES丨C2′-氟代核酸在生理盐条件下形成左手螺旋

Nat Mater丨DNA折纸装置在空间上控制CD95信号传导以诱导类风湿性关节炎的免疫耐受

Nature Methods | CRISPR阵列介导的非重复位点和多路基因位点的活细胞成像

Cell Reports Medicine丨单细胞乳腺肿瘤图谱揭示肿瘤上皮细胞与免疫细胞的错综复杂关系并预测抗PD-1疗效

分子医学论坛预告丨第55期：樊春海院士带来《转化医学：从理念到实践》

Nat Commun丨不依赖末端修饰的cf RNA 测序可实现灵敏的早期癌症检测和分类

SCIENCE丨解混是通过相分离形成的生物凝聚物的默认过程

Advanced Science丨YY2/BUB3 轴通过调节染色体不稳定性促进 SAC 过度活化并抑制结直肠癌进展

JACS | 离子对生物分子凝聚体微环境的影响

分子医学论坛预告丨第五十四期：Howard C.Hang 教授

NATURE丨使用 AlphaFold 3 准确预测生物分子相互作用的结构

课题组工作丨ANGEW丨一种精准可控的DNA编码扩增反应用于活细胞膜蛋白多重定量成像

课题组工作丨PNAS丨解密sgc8c DNA适体的复杂三维结构和功能优化

JACS丨开发一种伪细胞系统以量化决定细胞中G-四链体功能的特定相互作用

JACS | 生物正交用于细胞间相互作用的促进和检测

Nat Method丨校正UMI中的PCR扩增错误以生成测序分子的准确数量

分子医学论坛预告丨第五十三期：陈小元教授带来《肿瘤诊疗一体化》

Nat Biomed Eng | 融合唾液酸酶到双特异性T细胞衔接器用于肿瘤细胞的去唾液酸化与溶解

毕业季丨飞向广阔的未来，祝课题组2024届毕业生毕业快乐，前途似锦！

Sci Adv丨基于DNA分子控制器的可自主装配与拆卸的分子机器人

课题组工作丨Nat Commun丨可执行数学运算的核酸分子计算芯片用于癌症诊断

Sci Adv丨能够捕获和释放荧光适体的RNA机器人

Nano Today丨装载有STING拮抗剂的肾小管上皮细胞仿生纳米颗粒通过调节固有与适应性免疫从而缓解急性肾损伤

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉