首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

学术 2024-10-21 11:51 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | ScienceAI

今天为大家介绍的是来自北京大学信息工程学院、化学生物学与生物技术学院省部共建肿瘤化学基因组学国家重点实验室、鹏城国家实验室合聘研究员和 AI4S 平台中心主任陈语谦教授团队发表在《Nature Communications》的论文。

该团队开发了一种新型的多模态整合方法，能够实现多模态单细胞数据的整合与插补，这一成果可以促进多模态单细胞数据的分析。

文章链接：https://www.nature.com/articles/s41467-024-53355-6

背景介绍

异构特征空间和技术噪声阻碍了细胞数据的整合和插补。跨模态获取配对数据的高成本进一步限制了分析。因此，迫切需要深度学习方法来有效地整合和插补不配对的多模态单细胞数据。

在此，作者设计了模态联结自编码器 Monae。Monae 联结模态之间的关系，并在特定模态中采用对比学习，增强联合空间中的细胞表示。Monae 的整合部分提供模态互补的细胞表示，插补部分利用细胞表示生成具有生物异质性的模态内和跨模态计数。

此外，额外设计的 Monae-E 是 Monae 的一种变体，支持更快收敛并提供可解释性。在各种数据集上的评估验证了 Monae 在多模态单细胞数据整合和插补中的准确性。

模型架构

Monae 是一个由自编码器构建的多模态单细胞数据学习框架，如图 1 所示。Monae 基于不同模态之间的调控关系构建一个模态联结图。图中的节点对应于特定模态中的单个独立特征。Monae 中的图自编码器学习每个节点的表示，如图 1a 所示。

在 Monae 中，不同的自编码器编码各个模态，其中的非对称网络生成对比学习中的正样本和负样本，如图 1b 所示。自适应聚类用于增强 Monae 对比学习的细胞表示，增加异质簇之间的判别性，如图 1c 所示。

从 Monae 获得图联结节点嵌入和对比学习的细胞嵌入后，后者用作多模态整合的细胞表示（如图 1d 所示）。

对于插补，Monae 将来自联合空间的细胞表示与模态联结节点特征融合以推理插补计数。对于变体 Monae-E，可以将多模态细胞作为节点添加到图 1a 中的图联结中。

Monae-E 从图自编码器获得所有节点的嵌入，包括细胞嵌入和特征嵌入，再使用细胞嵌入来替换 Monae 中非对称网络的计数输入，后续过程与 Monae 一致，如图 1e 所示。

图 1：模型架构和工作流程

多模态单细胞数据整合

作者在多个数据集上评估 Monae 和基线方法，这些数据集包括配对和不配对场景。

与基线方法相比，Monae 和 Monae-E 在两个整合指标批次去除和生物异质性上表现更好，并且对不同的随机数据划分具有鲁棒性，如图 2b 所示。

为了评估数据集规模的影响，作者首先随机采样并获得不同规模的数据集子集。所有方法在子集上进行了比较，如图 2c 和 d 所示。

Monae 和 Monae-E 可以取得更好的性能。随着子集规模的增加，所有方法的表现都会得到提高。图 2e 中展示了其他数据集上的结果比较，评估标准为批次去除和生物异质性的整体得分。

图 2：多模态整合基准

多模态单细胞数据的插补

RNA 模态插补对应于模态内插补。作者使用 MultiVI 以及专用于模态内插补的方法：MAGIC 和 DCA 作为基线方法，在 Muto-2021 上评估基线方法和Monae。

在图 3a 中，使用 PCA 降维插补计数，并用 UMAP 可视化，Monae 和 Monae-E 插补后的细胞簇彼此分离得更开，具有更好的判别性。评估结果如图 3b 所示，Monae 和 Monae-E 的整体性能优于基线方法。

对于跨模态插补，作者使用 scButterfly、MultiVI、JAMIE、UnitedNet 和 BABEL 作为基线。将 Muto-2021 上的 RNA 模态数据转换为 ATAC 模态。

跨模态插补的评估结果如图 3c 所示。这些结果体现出 Monae 恢复了 ATAC 模态下的生物异质性。

总体而言，Monae 和 Monae-E 翻译的图谱能够表征细胞簇之间的差异，从而促进细胞类型识别等下游任务。

同样的方式，作者评估了从 ATAC 模态翻译到 RNA 模态的插补结果。Muto-2021 上的跨模态插补的评估结果如图 3d 所示。虽然 scButterfly 表现更好，但值得注意的是，Monae 和 Monae-E 的性能接近 scButterfly。

图 3：多模态插补基准

结论

在本研究中，作者介绍了 Monae，一种用于多模态单细胞数据整合和插补的深度学习方法。

Monae 的设计遵循两个动机：（1）对于整合，学习模态之间的联结关系可以促进联合空间中的对比学习并消除模态之间的差距。（2）对于插补，当前模态中缺失的信息可以通过其他模态来补充。

因此，Monae 利用整合细胞表示来生成插补计数。作者进行了基准实验，体现了Monae 在一系列数据集和场景中的表现，包括多模态整合、模态内和跨模态插补。

总体而言，Monae可以作为复杂多模态单细胞数据的综合分析的工具，其有助于了解生物系统内的细胞身份和功能状态。

代码：https://github.com/shapsider/monae

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503359&idx=1&sn=d4ab138f396467a69a9c0d384c9bdbb5

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

最新文章

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

贝佐斯、OpenAI领投，给机器人装AI「大脑」的Physical Intelligence获4亿美元融资

精准预测RNA可变剪接，浙大多模态深度学习模型SpTransformer登Nature子刊

创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

为233种疾病推荐候选药物，中国科学院深度生成模型助力药物发现，登Nature子刊

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉