从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

学术 2024-10-18 11:51 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | KX

蛋白质在生物体内扮演着不可或缺的角色，准确预测其功能对于实际应用至关重要。尽管高通量技术促进了蛋白质序列数据的激增，但揭示蛋白质的确切功能仍然需要大量时间和资源。目前，许多方法都依赖于蛋白质序列进行预测，而针对蛋白质结构的方法很少。

为了应对这些挑战，东北大学的研究人员从蛋白质结构出发，提出将卷积神经网络 (CNN）和图卷积网络 (GCN）结合成一个统一框架，称为双模型自适应权重融合网络 (Two-model Adaptive Weight Fusion Network，TAWFN)，用于蛋白质功能预测。

TAWFN 在预测蛋白质结构功能方面表现出了良好的性能，优于现有方法。

相关研究以「TAWFN: a deep learning framework for protein function prediction」为题，于 9 月 23 日发布在《Bioinformatics》上。

论文链接：https://academic.oup.com/bioinformatics/article/40/10/btae571/7766190

单独使用 CNN、GCN 预测蛋白功能的缺陷

准确识别蛋白质功能有助于更深入地了解疾病机制，并有望发现新的治疗靶点。

开发一种准确有效的蛋白质功能预测方法至关重要。当前预测蛋白质功能的方法主要集中在三个领域：蛋白质序列、蛋白质结构和蛋白质-蛋白质相互作用网络。

当前针对蛋白质结构的方法很少，通常单独使用卷积神经网络 (CNN) 或图卷积网络 (GCN)。单独使用 CNN 或 GCN 存在以下问题：

使用 CNN 时可能会发生信息丢失，因为它们的局部接受场可能无法捕捉蛋白质的整体结构。如果关键特征分布在很大的区域，CNN 可能会因为只关注局部区域而错过它们。同样，对于 GCN，如果蛋白质结构具有图卷积层无法完全捕捉的复杂关系，则会导致蛋白质特征的表示不完整。
GCN 更适合处理图结构数据，而 CNN 更适合序列数据。仅使用其中一个网络可能无法完全捕获蛋白质中的各种信息，从而导致特征表示受限。当蛋白质结构同时包含序列和图信息时，仅依赖一种类型的网络无法充分利用这些不同的来源，从而限制了对蛋白质结构的全面理解。

TAWFN：用于蛋白质功能预测

为了解决这些问题，东北大学研究人员提出了一种新型蛋白质功能预测方法 TAWFN。该方法集成了 CNN 和 GCN，同时利用了蛋白质结构和蛋白质语言模型。对蛋白质结构进行处理，得到相应的蛋白质序列。

研究的主要贡献总结如下：

在 GCN 方面，使用处理后的蛋白质序列特征和蛋白质接触图构建图形输入网络。使用 GCN 编码器来捕获短程信息，并引入 Transformers 来捕获长程信息。为了更好地理解拓扑语义，利用注意机制来生成图表示。
在卷积网络方面，使用处理后的蛋白质序列特征作为输入。使用多层卷积编码器，其中多个卷积层级联。此外，将特征金字塔结构与多尺度深度特征提取器集成在一起以捕获局部特征。此外，引入了多头注意机制来捕获多尺度局部特征之间的长程依赖关系。
通过采用自适应权重计算，将两个网络的初步预测结果融合，得到最终的预测结果。
通过大量实验，将 TAWFN 与基线方法进行比较，结果表明，TAWFN 的性能超越了其他最先进的方法。模型还表现出出色的通用性和可解释性，表明结合两种方法可以提高效率。

具体而言，TAWFN 的结构如下图所示，主要由四个模块组成：（1）输入数据生成模块：该模块生成蛋白质接触图和序列编码特征，包括 ESM-1b 编码和独热编码。（2）基于 GCN 的 AGCN 模块：该模块包括两个子模块 AGCN1 和 AGCN2，两个子模块在处理不同的输入时共享同一个 AGCN 网络。它产生初步的预测结果。（3）基于 CNN 的 MCNN 模块：该模块生成初步的预测结果。（4）自适应融合模块：该模块通过计算将两个初步预测结果，和融合，生成最终的预测分数。

图示：TAWFN 模型图。（来源：论文）

TAWFN 与其他最先进方法的比较

为了评估方法的有效性，研究人员在 PDBset 和 AFset 数据集上进行了实验。主要使用指标 Fmax、Smin 和 AUPR 来评估方法的性能。Fmax 指标表示在所有预测阈值上计算出的最大 F 值。Smin 表示预测注释和真实注释之间的语义距离，考虑到每个函数的信息内容。AUPR 使用梯形规则近似计算精确度-召回率曲线下的面积，评估模型在不同预测阈值上的性能。Smin 值越低越好，而 Fmax 和 AUPR 值越高则表示性能越好。

为了评估方法的有效性，研究人员在 PDBset 和 AFset 数据集上进行了实验。将 TAWFN 方法与几种基线方法进行了比较，包括 Blast、FunFam、DeepGO、DeepGOPlus、DeepFRI、GAT-GO、ATGO、SPROF-GO、DeepGO-SE 和 HEAL。

对于分子功能、生物过程和细胞成分任务，TAWFN 的精确召回曲线下面积 (AUPR) 值分别为 0.718、0.385 和 0.488，对应的 Fmax 得分分别为 0.762、0.628 和 0.693，Smin 得分分别为 0.326、0.483 和 0.454。

这些结果超越了基于 GCN 的最佳方法 HEAL 的性能。这表明结合了 GCN 和 CNN 的 TAWFN 可以更全面地学习蛋白质结构内的特征。此外，AGCN 中的多头注意力机制（MHA）通过图池化有效地学习蛋白质图特征，而 MCNN 中的 MCAM 则捕获蛋白质序列的全局特征。这些因素有助于 TAWFN 在蛋白质功能预测中的有效性。

消融研究

针对 MCNN 和 AGCN，研究人员设计了消融实验来验证二者结合的有效性，并验证了 LSTM 在 AGCN 中的作用。结果如表 2 所示。

可以观察到，MCNN 的性能优于 AGCN，说明 MCNN 中 MCAM 产生的全局信息有利于蛋白质预测。而且，当 MCNN 和 AGCN 在网络中结合时，性能优于每个模块单独预测。这表明这种组合不仅从局部和全局的角度提高了特征的学习，而且还注重细节。总体而言，TAWFN 方法对蛋白质功能预测性能有增强作用。

研究人员表示：「在未来的研究中，我们的目标是引入更多可学习的特征，利用多视图技术，并预测新的蛋白质结构。」

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503330&idx=1&sn=4108f2deb05535d1332ce7b6e2237ad7

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉