Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

学术 2024-10-15 11:54 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

宏基因组组装基因组 (MAG) 为利用宏基因组测序数据探索微生物「暗物质」提供了宝贵的见解。

然而，人们越来越担心 MAG 中的污染可能会严重影响下游分析的结果。目前的 MAG 净化工具主要依赖于标记基因，并没有充分利用基因组序列的背景信息。

为了克服这一限制，香港浸会大学（Hong Kong Baptist University）和英伟达 AI 技术中心（NVIDIA AI Technology Center）的研究人员提出了 Deepurify 来进行 MAG 净化。

Deepurify 使用多模态深度语言模型和对比学习来匹配微生物基因组序列与其分类谱系。它将 MAG 内的 contig 分配给 MAG 分离树，并应用树遍历算法将 MAG 划分为子 MAG，目的是最大化高质量和中质量子 MAG 的数量。

Deepurify 在模拟数据、CAMI 数据集和复杂程度各异的真实数据集上的表现均优于竞品（MDMclearer 和 MAGpurify）。在土壤、海洋、植物、淡水和人类粪便宏基因组测序数据集中，Deepurify 分别使高质量 MAG 的数量增加了 20.0%、45.1%、45.5%、33.8% 和 28.5%。

该研究以「A multi-modal deep language model for contaminant removal from metagenome-assembled genomes」为题，于 2024 年 10 月 7 日发布在《Nature Machine Intelligence》。

利用短读宏基因组测序数据进行基因组组装已成为研究复杂环境中微生物暗物质的常用方法。然而，单个重叠群仅捕获完整微生物基因组的一个片段。因此，需要进行重叠群分箱，将具有相似序列特征和丰度的重叠群分组以代表微生物基因组。

有研究表明，MAG 污染是宏基因组组装中重叠群分箱过程中的一大挑战。已经开发出 MAGpurify 和 MDMcleaner 等工具来解决此问题，方法是从 MAG 中去除受污染的重叠群。

然而，这些工具有一些局限性。如果核心基因组和受污染基因组的 LCA 属于同一科或属，它们很难区分重叠群。

同时，还有来自源基因组的重叠群的挑战，这些重叠群在参考数据库中是不存在的。此外，这些工具主要关注基因，而忽略了基因顺序和基因组重排等基因组变异。

在最新的研究中，香港浸会大学和英伟达 AI 技术中心的研究人员开发了 Deepurify，一种多模态深度语言模型，用于高分辨率和广义的 MAG 净化。

在训练过程中，Deepurify 使用两个编码器，GseqFormer 和长短期记忆 (LSTM)，分别生成基因组序列及其源基因组分类谱系的嵌入。然后，这些嵌入用于对比学习，以建立这两种类型的模态之间的关系。

图示：Deepurify 训练流程。（来源：论文）

在净化过程中，Deepurify 首先根据预测的分类谱系评估 MAG 中重叠群的分类相似性。预测的分类谱系用于构建 MAG 分离树，其中每个节点包含特定分类群中具有相同分类谱系的重叠群。每个节点的重叠群根据其序列嵌入和注释的单拷贝基因 (SCG) 分组为子 MAG。

图示：Deepurify 用于 MAG 净化的工作流程。（来源：论文）

研究人员使用了一种树遍历算法来选择子 MAG，旨在从树中最大化高质量和中等质量 MAG 的总数。此外，他们实施了一种名为 Deepurify_Iter 的迭代净化策略，以促进来自多个分箱工具的 MAG 的逐步净化。

图示：Deepurify_Iter 中使用的迭代净化策略的工作流程。（来源：论文）

对于模拟数据，Deepurify 在 MAG 净化方面的表现优于两种最先进的工具 MAGpurify 和 MDMcleaner，如下图所示。

图示：不同污染率下平衡宏观 F1 得分的平均数。（来源：论文）

Deepurify 还展示了出色的泛化能力，即使训练集中没有源基因组，也能准确识别受污染的重叠群，如下图。对于宏基因组解释的关键评估 (CAMI) I 和真实世界的宏基因组测序数据集，研究团队使用 GUNC 来评估净化后的 MAG 的污染水平。

图示：不同污染率下平衡宏观 F1 得分的平均数（训练集中没有源基因组）。（来源：论文）

对于 CAMI I 数据集，研究人员将 MAGpurify、MDMcleaner、Deepurify 和 Deepurify_Iter 应用于由三个 contig 分箱工具生成的 MAG：CONCOCT、MetaBAT2 和 SemiBin2。

结果表明，Deepurify 和 Deepurify_Iter 显著减少了 MAG 的污染，在所有分箱工具中都超过了 MAGpurify 和 MDMcleaner，如下图所示。

图示：通过 GUNC 污染标准的高质量和中等质量 MAG 的数量，以及 CAMI I 和五个真实世界数据集的质量得分（1k = 1,000）。（来源：论文）

同时，他们将 Deepurify_Iter 应用于现实世界中复杂程度各异的宏基因组测序数据集，包括来自土壤、海洋、植物、淡水和人类粪便的样本。研究结果表明，Deepurify_Iter 显著提高了所有这些样本中 MAG 的质量，高质量 MAG 分别增加了 20.0%、45.1%、45.5%、33.8% 和 28.5%。并且，即使处理来自高度复杂生态系统的 MAG，Deepurify_Iter 的性能仍然保持稳健。

总之，该团队证明了 Deepurify 在从短读长宏基因组组装中去除 MAG 方面具有显著的效果。

论文链接：https://www.nature.com/articles/s42256-024-00908-5

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503283&idx=1&sn=d4d1bf448bbf04cce4cc4c8858f32449

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉