Foldseek 有何妙用？

文摘 2024-11-02 09:41 广东

Foldseek 有何妙用？

Foldseek作为蛋白结构搜索软件，是一个很强大的基础工具。该模型自从 Martin Steinegger 在2022年以《Fast and accurate protein structure search with Foldseek》为题发表在 Nature biotechnology 以来，催生了很多下游应用：

Foldseek 对蛋白结构的 Tokenization 策略，也被很多模型借鉴和使用；
也有团队把 Foldseek 当作挖掘机对 AFDB 进行淘金等；
也有项目将其用到蛋白语言模型、逆向折叠等任务；

本文旨在归纳 Foldseek 的一些下游应用或工作，未涉及太多细节所以不是一篇深度文章，而是一篇广度文章。希望能给读者一点启发，更好地利用 Foldseek 去解决重要的科学问题。

关键词

Foldseek｜结构搜索｜下游应用

1. 背景

1.1 Martin Steinegger

Martin Steinegger 是首尔国立大学生物科学系的副教授，专注于生物信息学和计算生物学。

他参与开发了多个重要的生信工具，包括：

MMseqs2：一种高效的蛋白质序列搜索方法，其运行速度比 BLAST 快 10000 倍。
Linclust：用于在线性时间内聚类大量蛋白质序列集的方法。
HH-suite3：基于隐藏马尔可夫模型（HMM）的敏感序列搜索工具，能够高效识别远程同源性，适用于蛋白质功能分析和结构预测。
ColabFold：结合 AlphaFold2 和 RoseTTAFold 的工具，使蛋白质折叠预测变得更加便捷。

1.2 Foldseek 原理

结构离散化

查询（query）蛋白结构 → 离散化成 3Di 序列1
目标（target）蛋白结构 → 离散化成 3Di 序列2
将结构的搜索巧妙的转换成了 3Di 序列的搜索和比对，实现加速 [1].

如何理解 3Di 结构字母表?

Foldseek从两个残基的主链片段中提取七个角度、一个距离和两个序列距离特征，这些特征用来定义二十个 3Di 状态。
通过训练一个向量量化变分自编码器（VQ-VAE）来学习这些状态，目的是找到在进化上最保守的状态。
可视化理解：这里的 3Di 可以理解为某种离散化的局部特征结构，ESM3 对结构的处理也是使用的 VQ-VAE 模型进行 tokenization [2]，搬运 ESM3 的可视化到此帮助读者理解（下图）。从下图可见，VQ-VAE 编码的离散化的结构都是相似的。

1.3 Foldseek 系列工作

自从 Foldseek 在2022年发布以来，Martin Steinegger 又陆续发布了一系列工作：

Foldseek，2022.02，单体结构的快速搜索 [2]
Foldcomp，2022.12，压缩三维结构，高效存储AFDB [3]
Foldseek-cluster，2023.03，AFDB的结构聚类分析 [4]
Foldseek-multimer，2024.4，将Foldseek延展到多体 [5]
FoldMason，2024.8，蛋白的大规模的多结构对齐/比对 [6]

以上的一系列工作，小王随笔有进行详细的解读，此处不再赘述。推荐读者阅读《AFDB的结构挖掘》，《Foldseek-multimer蛋白复合体的极快对齐》，《折叠匠人FoldMason》。

1.4 Foldseek 同类型工具

Foldseek与六种蛋白质结构对齐工具（TM-align、TM-align-fast、Dail、CE、CKE-SW、3D-BLAST）、无对齐结构搜索工具（Geometricus）以及序列搜索工具（MMseqs2）进行了比较。结论就是，Foldseek 以快数千倍的速度达到与其他结构搜索工具相似的灵敏度。

精度方面：Foldseek 比 MMseqs2、CLE-SW 和 TM-align 更准确、更灵敏，与 Dali 的准确度相似，比 CE 低 13%的准确率，但灵敏度高15%（下图e）。

速度方面，Foldseek 与 MMseqs2 差距缩小到一个数量级以内，远优于其他结构对齐方法（下图d）。

后续也有出来的比 Foldseek《更快更准的结构搜索工具 Progres》。还有 Liisa Holm 课题组同学也正在对 Dail 工具进行速度优化，精度优化则需要考虑比 Foldseek 更优的离散化方法。

2. 用于结构聚类

2.1 结构域百科全书（The Encyclopedia of Domains，TED）

AFDB 包含超过2.14亿个蛋白结构。这些结构由结构域构成，结构域是理解蛋白功能和进化的关键独立折叠单元。AFDB 的庞大规模使得准确识别和分类这些结构域变得困难，限制了人类充分利用 AFDB 进行生物发现的潜力。且基于序列的传统方法，如 Pfam 和 Gene3D，无法检测到遥远的进化关系，以及完全新型的结构域。

为了应对这些挑战，作者开发了结构域百科全书（TED）[7]，整合了多种深度学习和先进的结构比对算法（Foldseek 也在其中），解决蛋白结构域的识别和分类问题。

Foldseek 在 TED 中起到的一些关键的作用，比如：

结构域分类和匹配：Foldseek 用于将从 AFDB 中识别出的结构域与已知的 CATH 分类体系中的结构域进行匹配，以确定它们是否属于已知的蛋白质结构域家族。
拓扑级别的超家族识别：Foldseek 将大量的结构域分配到 CATH 分类体系的超家族（H）和拓扑（T）级别。
提高分类精度：通过使用特定的阈值和参数，Foldseek 提高了结构域分类的精度。
扩展结构域家族的覆盖范围：Foldseek 通过识别以前基于序列方法未能检测到的结构域，扩展了 CATH 已知结构域家族的覆盖范围。同时揭示了数千个可能的新结构，这些新结构可能代表了以前未知的蛋白质结构域家族。
结构域间相互作用分析：Foldseek 还用于分析结构域间的相互作用，通过比较 TED 和 CATH 数据集中的相互作用，揭示了结构域间相互作用的多样性和保守性。

2.2 Foldseek cluster

小王随笔将 Foldseek cluster [4] 的工作描述的相当到位，他将其形容为：是对 AFDB 金山全域的拉网式扫描。

关于 Foldseek cluster 的“挖矿流程”和“钻探思路”，小王随笔有进行详细的解读，此处不再赘述，推荐读者阅读《AFDB的结构挖掘》。

2.3 Foldseek cluster 类似的工作

Sano计算医学中心的研究小组，借助 Foldseek 工具分析了大型蛋白质数据库（包括AFDB、ESMAtlas和微生物组免疫项目MIP）中蛋白质结构的互补性与功能集聚现象 [8]。这相对于 Foldseek cluster 工作，增加了 ESMAtlas 和 MIP 这2个数据库。

研究发现，尽管这些数据库各自在蛋白结构空间中占据独特的领域，它们在功能层面上却展现出显著的交集。特定的生物功能往往聚集在某些区域，揭示了尽管数据来源多样，但共享相似的功能景观。

通过综合这三个数据库的结构集群，研究者构建了一个统一的低维表示形式，这有助于深入探究蛋白质的序列、结构和功能之间的联系。研究团队还开发了一个公开的网络服务器（https://protein-structure-landscape.sano.science/），使用户能够更便捷地访问和探索这些结构数据集。

这项工作整合了来自不同来源的结构数据，为理解当前的蛋白结构全景提供了全面的视角，并为探讨蛋白功能和演化的相关生物学问题奠定了新的研究基础。

2.4 其他

类似 TED 和 Foldseek culster，对蛋白结构域进行划分的工作还有许多。比如：DomainMapper、DPAM、Merizo、Chainsaw等，小王对其进行了详尽的归纳和阐述，推荐阅读《AlphaFold时代的蛋白质结构域划分》。

3. 用于语言模型

3.1 ProstT5

Martin Steinegger 后面又基于 Foldseek 开发了一种新型的多模态蛋白质语言模型 ProstT5 [9]，它能够同时处理蛋白质的一维（1D）序列和三维（3D）结构。该模型使用 Foldseek 方法将3D蛋白结构转换为 3Di 字母表（1D），使得可以使用优化的序列搜索算法来比较3D结构。

ProstT5 预测的 3Di 序列在识别远亲缘蛋白质（远程同源性检测）方面优于传统基于序列的比对方法。ProstT5 还能进行多种下游任务，包括二级结构预测、结合位点预测、保守性预测、亚细胞定位预测等。ProstT5 能够仅从其 3Di 表示生成新的蛋白质序列，即能够完成逆向折叠任务。

3.2 SaProt

将 Foldeseek 的20个 3Di结构词表和氨基酸词表计算笛卡尔积，即两两组合形成新的结构感知词表（下图）。所以 SaProt 是一个融合结构信息的蛋白语言模型 [10]。

正是由于结合了蛋白结构信息和掩码语言模型（MLM）的优势，SaProt 在蛋白突变效应预测上具有优秀的表现，长期霸占 ProteinGym 榜单的第一名。更多关于 Saprot 的细节，推荐阅读文章《基于结构感知词表的蛋白质语言模型SaProt》。

4. 用于Binder搜索

4.1 EvoBind

在《看懂 Binder 设计》文章中，我们曾经介绍过 Foldseek 用于 Binder 设计的方法 EvoBind [11]。

EvoBind的算法的整体流程如下（下图）：

以目标结构（预测/实验）作为输入，使用Foldseek进行搜索以得到Binder骨架。
然后选择与目标界面接触密度最高的骨架，并使用ESM-IF1进行逆向折叠以生成Binder序列。
使用AF2预测蛋白Binder复合物结构。
使用基于界面距离d、质心和plDDT的设计的损失函数loss来评估设计的Binder。
最终与天然Binder种子在结构上进行叠加计算RMSD。

EvoBind 论文也针对靶点 IL7RA 靶点设计 Binder 实战，实验上的亲和力在微摩尔级别。

Foldseek 搜索 Binder 骨架的优点在于是搜到 PDB 数据库里天然存在的骨架，如果靶蛋白有于其他蛋白形成 Multimer，这样做很好。

但缺点在于，如果靶蛋白在数据库里没有多体 Multimer 结构，这种需要“完全从头设计”的靶点，只能依靠RFdiffusion、BindCraft、RSO等方法。

最近，该团队作者推出了EvoBind2 [12]是针对不同长度Binder突变迭代的思路，湿实验验证设计Binder最好能到几十纳摩尔亲和力。同时 EvoBind2 也拓展支持环肽的设计。

4.2 小分子Binder搜索

目前小分子 Binder 设计的算法，主要是用 RFdiffusionAA、PocketGen 首先生成小分子结合的蛋白骨架，再加上 LigandMPNN 生成蛋白质的序列。

小编有个不太成熟的想法💡，也许可以派上用场，如下：

小分子有与之结合的蛋白，并有蛋白-小分子复合物结构

复合物结构可以是 PDB 数据库找到的
复合物结构也可以是 RFdiffusionAA 生成

提取复合物结构中的含有口袋部分蛋白单体
用 Foldseek 搜索到批量的蛋白
检查这批蛋白，是否有的结合了相似的小分子，进行过滤
最后得到的蛋白结构进行 inverse folding

5. 用于逆向折叠

有一天我走在路上思考，Foldseek是如此强大，能够将蛋白结构转换为 3Di 词表，是不是可以设计出拥有相似 3Di 结构词表的新序列，即完成“逆向折叠”任务。可惜不多久我就看到 ProstT5 已经可以用逆向折叠任务。

ProstT5 的逆向折叠，是通过将结构表示为 3Di，然后从这些 3Di 生成相应的氨基酸序列。以下是ProstT5在逆向折叠任务中的表现：

结构相似性：尽管 ProstT5 的序列恢复率平均只有21%，但拥有很高的结构相似性。
性能比较：与ProteinMPNN相比，ProstT5在某些案例中表现更好，总体上 ProteinMPNN 的平均 lDDT 得分（77）略高于ProstT5（72）。
圆周准确性（Roundtrip Accuracy）：将 3Di 序列翻译回氨基酸序列，然后再次翻译回 3Di 序列，用这个指标评估了逆向折叠的质量。作者发现Roundtrip Accuracy 和 LDD T高度相关（下图）。
案例：研究者们手动挑选了一些测试案例，其中 ProstT5 和 ProteinMPNN 都生成了与自然对应物具有高结构相似性的序列（下图右边）。

总的来说，ProstT5 在逆向折叠任务中表现出了潜力，但它没有达到 ProteinMPNN 的性能水平。

总结

本文是小编根据自己看到的文献，简单总结了一下Foldseek的应用。这些应用包括：

蛋白结构搜索、多体结构搜索、蛋白体积压缩
结构聚类TED、Foldseek cultser等
用到蛋白语言模型ProstT5、SsProt
还可以进行蛋白/小分子 Binder 搜索
Foldseek还可进行有点弱鸡的逆向折叠任务

虽然简单讲述到了上述应用，肯定不能以偏概全，难免还有遗漏疏忽之处，或者Foldseek还有一些其他的应用。十分欢迎读者在留言区讨论和补充，感谢笔芯💗。

参考文献

[1] Foldseek: Van Kempen, Michel, et al. "Fast and accurate protein structure search with Foldseek." Nature biotechnology 42.2 (2024): 243-246.

[2] ESM3: Hayes, T., et al. "Simulating 500 million years of evolution with a language model. bioRxiv preprint." 2024

[3] Foldcomp: Kim, Hyunbin, Milot Mirdita, and Martin Steinegger. "Foldcomp: a library and format for compressing and indexing large protein structure sets." Bioinformatics 39.4 (2023): btad153.

[4] Foldseek-cluster: Barrio-Hernandez, Inigo, et al. "Clustering predicted structures at the scale of the known protein universe." Nature 622.7983 (2023): 637-645.

[5] Foldseek-multimer: Kim, Woosub, et al. "Rapid and Sensitive Protein Complex Alignment with Foldseek-Multimer." bioRxiv (2024): 2024-04.

[6] FoldMason: Gilchrist, Cameron LM, Milot Mirdita, and Martin Steinegger. "Multiple Protein Structure Alignment at Scale with FoldMason." bioRxiv (2024): 2024-08.

[7] TED: Lau, A. M., et al. "Exploring structural diversity across the protein universe with The Encyclopedia of Domains." Science (2024)

[8] Szczerbiak, Paweł, et al. "Large protein databases reveal structural complementarity and functional locality." bioRxiv (2024): 2024-08.

[9] ProstT5: Heinzinger, Michael, et al. "Bilingual language model for protein sequence and structure." bioRxiv (2023): 2023-07.

[10] SaProt：Su, Jin, et al. "Saprot: Protein language modeling with structure-aware vocabulary." bioRxiv (2023): 2023-10.

[11] EvoBind：Bryant, Patrick, and Arne Elofsson. "Peptide binder design with inverse folding and protein structure prediction." Communications Chemistry 6.1 (2023): 229.

[12] EvoBind2：Li, Qiuzhen, Efstathios Nikolaos Vlachos, and Patrick Bryant. "Design of linear and cyclic peptide binders of different lengths only from a protein target sequence." bioRxiv (2024): 2024-06.

进群交流

进群请填问卷，广告勿扰！

如果是PI/教授，烦请注明。

往期合集

干货文章｜线上报告｜蛋白设计｜综述｜Binder｜Co-design｜Benchmark｜AF3｜David Baker｜ESM｜MaSIF｜结构预测｜语言模型｜骨架生成｜逆向折叠｜抗体设计｜多肽设计｜酶设计｜稳定性｜药物设计

关注我们

死磕自己，愉悦大家

专注于*AI蛋白相关的论文解读&学术速运

历史文章

AI4Protein

读书破万卷juǎn，专注于AI蛋白相关的学术搬运。

Foldseek 有何妙用？

Foldseek 有何妙用？

关键词

目录

1. 背景

1.1 Martin Steinegger

1.2 Foldseek 原理

1.3 Foldseek 系列工作

1.4 Foldseek 同类型工具

2. 用于结构聚类

2.1 结构域百科全书（The Encyclopedia of Domains，TED）

2.2 Foldseek cluster

2.3 Foldseek cluster 类似的工作

2.4 其他

3. 用于语言模型

3.1 ProstT5

3.2 SaProt

4. 用于Binder搜索

4.1 EvoBind

4.2 小分子Binder搜索

5. 用于逆向折叠

总结

参考文献

进群交流

往期合集

关注我们

历史文章