【Science】通过结构域分类探究蛋白质宇宙的结构多样性

学术科学 2024-11-04 20:12 北京

——背景——

AlphaFold系列结构预测算法的出现极大地拓展了已知的蛋白质结构空间，其中AlphaFold2算法为超过2.14亿条蛋白序列提供了预测结构，构成了庞大的AlphaFold蛋白结构数据库（AFDB）。AFDB的数据规模对传统的结构域发现工具带来了挑战。近日，伦敦大学学院（UCL）的David T. Jones课题组运用深度学习方法，对AlphaFold蛋白结构数据库中的结构数据进行结构域检测和划分，构建了“结构域百科全书（The Encyclopedia of Domains，TED）。他们共检测到3.65亿个结构域，比基于序列的方法多检测出1亿个，其中77% 的非冗余结构域与已知超家族相似，极大地扩展了结构域空间的代表性。此外，他们还发现了超过 1 万个新的超家族间结构相互作用和上千个新折叠。

——主要结果——

1.识别AFDB中结构域的高通量方法

蛋白质结构域的识别分为基于序列和基于结构的两类方法。其中，Pfam和Gene3D是基于序列方法的代表。Pfam数据库是蛋白质家族的集合，每个蛋白质家族由多序列比对和隐马尔科夫模型(HMMs)描述文件表示。Gene3D是基于蛋白质序列的结构域预测数据库，通过利用CATH分类的信息，使用序列比对和HMMs来预测蛋白质序列中的结构域。CATH、ECOD、SCOP和SCOPe则是主要的基于结构的蛋白结构域分类方法。

在本研究中，作者组合了三种结构域识别方法和结构分类算法识别已知的结构域（图1A,B）。通过这一流程，作者在AFDB中识别到了共3.65亿个结构域，比基于序列的识别方法多出一亿多个（图1C）。其中，单结构域蛋白和多结构域蛋白的比例约为42：55（图1Di），其中多结构域蛋白最多由20个结构域组成。对TED-100数据集中的平均预测局部距离差异测试分数（pLDDT）分析表明，TED-100数据集中绝大多数数据的pLDDT都很高，仅2%的数据落于pLDDT<50%的区域（Low，图1Dii）。考虑到作者的结构域划分方法中并没有参考模型的残基pLDDT，所以作者认为良好的pLDDT分数分布显示出其方法有效地识别出了AFDB中折叠良好的区域内合理的结构域。

图1. 整体工作流程

2.TED数据集的CATH分类

作者通过MMseqs2对TED-100 中的3.24亿个结构域按序列聚类，并使用快速结构搜索方法与 CATH 代表结构域进行比对，最终生成了约1.21亿个聚类。其中大多数聚类包含单独的序列（约8100万），而最大的非单例聚类包含12,847个结构域。

除了序列聚类，作者还使用Foldseek和Merizo-search对所有TED-100结构域进行搜索，并与 CATH SSG5结构域比对，为1.94亿个结构域分配了CATH超家族（H）标签，4600 万个结构域分配了拓扑（T）层级标签。通过将Foldseek 预测的超家族进行HMM验证，作者发现约 1.71 亿超家族标签可通过 HMM 超家族比对确认（88.54%），另有180万个结构域（0.95%）可以在折叠层面得到确认。而Foldseek的1180 万个折叠预测和2030万个超家族预测未得到HMM比对的确认，这表明通过结构聚类相较于基于HMM 的序列聚类，CATH 标签的结构域覆盖率能够提升15.4%。

3. AFDB中折叠（Fold）的分布情况

作者使用 CATH 层级对 TED 中的折叠分布进行了评估。图 2A 显示了每个类别（alpha、beta和 alpha/beta）的前100个CATH超家族。相比于Gene3D，这些超家族在 TED-100中显著富集（图2B）。其中，大部分折叠（61%）在所有生物域中都存在，表明它们具有重要作用。有些折叠出现在两个生物域中（18.5%），而另一些则仅在古菌、真核生物和细菌中存在，占比分别为0.5%、9%和11%。

比较CATH和TED-100数据集，作者发现在两个数据集中数量均位居前列的结构域包括：MFS泛底物转运蛋白样结构域、翻译因子和 FAD/NAD(P) 结合结构域。其中，在 TED 中显著富集的超家族包含典型的多药外排泵 AcrB。AcrB 是一种 RND 转运蛋白，构成细菌中的AcrAB-TolC外排泵的一部分，负责将抗生素等有害物质排出，从而助力抗生素抗性。此外，作者还分析了发现的新的超家族蛋白只属于某一生物域的频率（图2C）。作者通过PCA降维，对TED中的折叠在各个生物域中的出现频率进行分析，观察到各类折叠在生物域中的独特性。

图2.TED数据集的CATH分类

4.高对称性结构

作者在前述的构建TED数据集的过程中，识别到了 4100 万个无法关联至 CATH 超家族的序列聚类。作者对其中具有高内部对称性的结构进行了分析。其中一个典型例子是各种 WD40 β螺旋桨结构，它们被视为独特的结构域架构，但显然由重复的结构域样单元组成。为识别类似结构域，作者使用SymD程序计算Z分数，将对称性Z分数>9的所有聚类代表归为一个包含6433个高对称性新折叠聚类的类别。

在这些聚类中，作者发现了一些前所未见的架构，例如11叶β螺旋桨、封闭的α环状 11螺旋桨，以及6螺旋桨等（图3）。作者还发现了一类由循环重复组成的结构，沿轴向延伸形成高度重复且对称的结构，作者称之为“延展重复”。图3最下部分展示了一些这些结构的示例，其中一些在重复单元之间包含高度多样化和无序的环状区域。这些结构与近期其他研究中报道的β-螺旋状折叠相似。

图3.高对称性结构示例

5.结构域对的相互作用

相较于基于序列的结构域分析方法，通过对AFDB中的全链多域蛋白模型的分析能够提供对结构域间相互作用关系的刻画。TED中包含总计 27,280,057 个互作结构域对实例，分为13,771个互作超家族对 (ISPs)。相比之下，CATH 中的互作结构域对实例仅196,234 个。其中，大多数TED 中的ISPs 的相互作用几何多样性与CATH中一致，少部分（5.4%）在 TED 中表现出多样性的增强，CIO（相互作用方向保持性）评分增加了 0.3。也有少量的 ISPs（2.4%）在CATH中更具多样性。

图 4Ci 中展示了ISP集的互作关系，其中如果两个超家族之间观察到至少一次交互作用，就在其间绘制一条路径。TED数据集发现了众多新相互作用，尤其是在CATH类别2和 3（全β和α-β类别）之间。超家族互作网络有助于识别出与多个其他超家族的互作的“枢纽”超家族（图4Cii）。图4D展示了两个枢纽超家族示例，可以看出TED数据集揭示了许多之前在CATH中未观察到的互作模式。这为未来探索结构域间互作提供了新的线索。

图4. 互作超家族对 (ISPs)

——总结——

在该研究中，作者通过构建“结构域百科全书（TED）”，将 AFDB 中的结构细分为各个组成结构域，并通过 CATH 框架进行分类，从而扩充了结构数据。这不仅推进了结构与功能之间的关联研究，还为发现和重新定义新的折叠和结构域提供了线索，揭示了新的蛋白质折叠空间“暗区”。

[1] Andy M. Lau et al., Exploring structural diversity across the protein universe with The Encyclopedia of Domains. Science 386, 6721(2024). DOI: https://doi.org/10.1126/science.adq4946

作者：郭政

审稿：顾仲晖

编辑：王丽莹

GoDesign

ID：Molecular_Design_Lab

（扫描下方二维码可以订阅哦！）

点击阅读原文即可查看文献链接

Andy M. Lau et al.

‍

http://mp.weixin.qq.com/s?__biz=MzU3MjcyMzI5Mg==&mid=2247493000&idx=1&sn=f9c3a589a7c6914780055254c1b4616b

GoDesign

关注化学、生命科学和药物研发等领域的科研进展，提供“原创、专业、接地气”的文献解读。

最新文章

【分子设计】抑制剂变降解剂可以多简单？

上海交通大学沈琦课题组诚聘博士后

【Science】通过结构域分类探究蛋白质宇宙的结构多样性

诺和诺德 | 缓释低血糖的葡萄糖敏感型胰岛素

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后

【深度学习】MDGen：分子动力学轨迹的生成式建模

美国爱荷华州立大学化学系张寓安教授课题组招聘启事

北京大学成都前沿交叉生物技术研究院公共技术平台介绍

看见PDB—生物大分子可视化的50年历程（中）

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

PHGDH/SYK——连接抗真菌免疫和丝氨酸代谢的纽带

看见PDB——生物大分子可视化的50年历程（上）

报名即将截止 | 核素药物产业深度聚焦峰会，扬帆核素蓝海，共逐下一个百亿赛道！

减肥与代谢病药领域顶尖盛会！MDD代谢病与减肥药物开发论坛携手40+行业领袖！

CNS药物领域唯一千人盛会！ICNS 2024 第四届中枢神经系统药物深度聚焦论坛

减肥与代谢病药领域顶尖盛会！MDD代谢病与减肥药物开发论坛携手40+行业领袖！

CNS药物领域唯一千人盛会！ICNS 2024 第四届中枢神经系统药物深度聚焦论坛

报名倒计时1周 | 国内唯一！自免药物开发盛会！聚焦类风湿关节炎、银屑病、系统性红斑狼疮等重点疾病领域！

【本实验室进展】当我们讨论计算机辅助逆合成设计时我们在讨论什么

报名即将截止| 国内唯一！自免药物开发盛会！聚焦类风湿关节炎、银屑病、系统性红斑狼疮等重点疾病领域！

【分子设计】雷帕霉素类似物库筛选分子胶水

人工智能赋能生物医药的未来产业画卷！AIBC2024最新日程发布 (第四版)

赋能生物医药的AI技术力量集体亮相！AIBC2024最新日程发布 (第三版)

蛋白拆分和模块化重组的生物学应用

AIBC2024｜人工智能与生物医药生态大会最新日程（第二版）

电院沈红斌、袁野团队在转录调控RNA速度估计生物信息学研究取得新进展

AIBC2024丨人工智能与生物医药生态大会日程发布

Chem. Sci. | 来鲁华、裴剑锋团队开发基于扩散模型的柔性分子对接方法

聚焦6月！赋能生物医药的AI技术力量集体亮相AIBC

【靶向降解】E3连接酶KLHDC2的小分子配体设计及应用

Nature | 代谢酶进化中分形几何的出现

爱因斯坦医学院生物化学系杨为课题组招聘博士后

【分子设计】超能打的RAS-multi抑制剂登上Nature！

【报名倒计时1周】第四届I-RNA 2024核酸药物千人峰会震撼来袭！

爱因斯坦医学院生化系杨为课题组招聘博士后

【分子设计】我们离理性设计分子胶还有多远

【报名即将截止】第四届I-RNA 2024核酸药物千人峰会震撼来袭！

AIBC千人大会，一网打尽人工智能在生物医药领域的最新进展！

InSilico Medicine在Nature子刊公开INS018_055结构，AI的设计够惊艳吗？

刚刚获批，首款NASH治疗药物resmetirom的药物设计

【一图看懂】2023年获FDA批准的小分子新药及药物设计思路

【解读】2024年2月FDA批准上市的药物

关于举办“第三期新酶设计及酶技术应用专题培训班”的通知

【药物设计】PDB中蛋白-小分子配体相互作用的系统性分析

报名即将截止 | 2024第六届小分子新药千人大会

【有机合成】2024年了，多臂老虎机还能发正刊——反应条件的优化

【深度学习】Str2Str：基于分数模型的zero-shot蛋白质构象采样方法

报名即将截止 | 2024第六届小分子新药千人大会

报名即将截止 | 100%专注小分子新药&多肽药物！SIT 2024第六届小分子新药千人大会震撼来袭

【药物开发】药价贵的背后，是临床试验支出的剧烈膨胀

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉