BioLinkX成果速递 | Nature Communications：转录组学分析全生态算法框架OmicVerse

文摘 2024-07-26 13:29 中国

❝
BioLinkX学术部核心成员胡磊为本文的共同第一作者，主要参与了BulkTrajBlend算法的开发和实证，OmicVerse算法框架的开发和维护，论文撰写等工作。
❞

成果背景

单细胞RNA测序（scRNA-seq）和Bulk RNA测序（RNA-seq）是探索细胞异质性、发育分化和疾病机制的重要技术。由于测序平台的技术限制以及酶解过程造成的细胞丢失，某些细胞类型在单细胞测序中有时会被遗漏，例如足细胞、中间祖细胞、神经元等。因此，开发能够应对单细胞数据中“遗漏”情况的算法工具，对于推动单细胞组学分析具有极其重要的意义。
此外，尽管组学算法的种类和数量不断增加，但选择合适的工具——既要准确无误，又要易于使用，且适合特定分析需求——却变得越来越困难。用户在学习和应用各种组学算法时，往往需要适应不同的系统，这不仅增加了计算和分析的复杂性，也降低了效率。因此，当前单细胞组学分析领域急需一个全面的算法框架，该框架应能简化对bulk RNA-seq和scRNA-seq分析的多种模型和算法的访问，从而提取关键的生物学洞见，推动科学研究的深入发展。

成果概览

2024年7月18日，北京科技大学化学与生物工程学院杜宏武团队和中山大学生命科学学院熊远妍团队在《Nature Communications》杂志在线发表了题为“OmicVerse: a framework for bridging and deepening insights across bulk and single-cell sequencing”的研究工作。该工作提出了一种被称为BulkTrajBlend（属于OmicVerse算法框架的一部分）的单细胞轨迹混合算法，有效地插值并恢复了scRNA-seq数据中“遗漏”细胞的连续性。此外，OmicVerse提供了一个广泛的工具包，用于bulk和scRNA-seq分析，OmicVerse封装了一系列相关分析算法，使其可以简化计算过程，促进精致的数据可视化。OmicVerse的相关代码和教程可以在以下链接中获得： starlitnightly.github.io/omicverse/

概览图 OmicVerse框架内容

如图所示，BulkTrajBlend在自编码器（AE）和 β-变分自编码器（β-VAE）的基础结构上进行了创新。这些改进包括：

构建 Bulk RNA-seq 生成器：我们利用AE构建了一个bulk RNA-seq 的生成器。我们将 bulk RNA-seq 的细胞比例空间建模为编码器的输出和解码器的输入。然后使用从 scRNA-seq 生成的带有真实细胞比例标签的模拟 bulk RNA-seq 作为编码器的输入，以训练模型。
训练 β-VAE：在利用真实 scRNA-seq 训练 β-VAE 时，编码器的输出包括 V（细胞类型比例）和 W（与细胞类型相关的生成因子）。我们增加了一个损失函数，以最小化 V 与真实细胞类型比例之间的关系。在模型训练结束时，我们获得了每个细胞的 W，并计算了每种细胞类型的 W 平均值以代表该细胞类型。
生成scRNA-seq数据：我们使用 AE 计算出的真实细胞类型比例 V 和 β-VAE 获得的与细胞类型相关的生成因子 W 作为输入，用于 β-VAE 生成scRNA-seq数据，并采用无监督聚类来去噪和细化 β-VAE 的结果。
图神经网络（GNN）的应用：我们利用图神经网络对生成的scRNA-seq数据进行采样，从而识别重叠的细胞亚群。采样这些重叠的细胞亚群有助于我们在不丢失细胞连续性的情况下插入“遗漏”的细胞。通过这些方法，BulkTrajBlend 能够有效地处理scRNA-seq数据中的“遗漏”问题，并在重建的单细胞景观中识别出那些原本可能被遗漏的细胞类型。

图1 BulkTrajBlend 算法的模型结构

此外，研究者们精心构建了手动模拟的“遗漏”数据集，并评估了BulkTrajBlend在真实数据集中重建发育轨迹的能力。在小鼠胰腺发育的数据集中，PAGA 图显示 Ngn3High EP 细胞分化为前内分泌细胞的基线概率为0.04。在相应的“遗漏”数据集中，这一概率降至0。然而，通过BulkTrajBlend的插值处理，该概率被提升至0.035。这些分析结果共同突显了BulkTrajBlend在精确重建真实发育轨迹方面的显著效果。

图2 scRNA-seq数据中模拟“遗漏”细胞的发育轨迹重建

除了评估BulkTrajBlend算法的性能，作者还介绍了OmicVerse在转录组学分析中的潜力。OmicVerse集成了广泛的 bulk RNA-seq 分析算法，包括用于批次校正的 pyComBat算法，使用 Deseq2 进行差异表达分析的 pyDEG算法，使用 STRING web API 进行蛋白质-蛋白质相互作用网络分析的 pyPPI算法，基因共表达网络分析的 pyWGCNA算法，基因集富集分析的 pyGSEA算法，以及用于癌症基因组图谱（TCGA）数据分析的 pyTCGA算法。

图3 利用OmicVerse进行bulk RNA-seq数据分析的全面概述

OmicVerse整合了一系列常用的scRNA-seq算法，包括pyHarmony、pyCombat和scanorama算法用于批次校正；更新至 CellMarker 2.0 和 CancerSEA 的pySCSA算法用于自动细胞类型注释；CellPhoneDB用于分析细胞间相互作用；pyVIA用于推断细胞轨迹；AUCell用于基于曲线下面积的基因集评分评估； scDrug 用于药物预测。OmicVerse 框架还引入了 SEACells进行元细胞分析，有效降低scRNA-seq数据的噪声。重要的是，OmicVerse统一了所有上述方法的输入数据格式，允许用户使用 Anndata 格式进行分析，显著提升了可视化效果，使结果更加美观。

图4 OmicVerse是一个用于scRNA-seq分析的综合分析平台

scATAC-seq与scRNA-seq数据的联合分析是揭示转录调控复杂性的关键。OmicVerse通过结合GLUE和 MOFA，揭示了转录调控的动态变化。在OmicVerse平台中，基于GLUE的多组学配对算法被用来整合和配对scRNA-seq和scATAC-seq数据。对于配对的单细胞多组学的分析，OmicVerse 整合了 MOFA 的核心算法，简化了数据分析和可视化的复杂性，并且这些操作都可以通过极少的编程实现。

图5 OmicVerse利用MOFA和GLUE整合多组学数据分析

启发与展望

综上所述，本研究提出了一种名为BulkTrajBlend的单细胞轨迹混合算法，旨在恢复 scRNA-seq 数据中“遗漏”细胞的连续性。此外，本研究还开发了OmicVerse框架，专门用于 bulk RNA-seq 和 scRNA-seq 数据分析。OmicVerse的算法文档为每个算法提供了详尽的应用程序编程接口（API）参考，并附有教程，详细说明了它们的功能、局限性以及如何与其他 bulk 和 scRNA-seq 分析工具整合使用。OmicVerse还拥有全面的开发人员文档，指导用户如何按照一致的开发逻辑向OmicVerse生态系统添加工具。
在过去一年的审稿过程中，OmicVerse不断更新和迭代，已经整合了近40种用于 bulk、scRNA-seq 和空间转录组学分析的工具，构建了一个全面的转录组学分析框架。最终，OmicVerse的目标是成为推动批量和单细胞测序社区发展的重要力量，鼓励各种模型的原型设计，建立 RNA-seq分析的标准，并拓展科学探索的边界。

作者介绍‍‍‍‍‍

北京科技大学化学与生物工程学院杜宏武教授，中山大学生命科学学院熊远妍副教授，北京科技大学大兴研究院特聘研究员幸岑璨博士和2022级博士研究生曾泽华为本文的共同通讯作者。北京科技大学化学与生物工程学院2022级博士研究生曾泽华，清华大学深圳国际研究生院2022级硕士生马雨晴和北京科技大学高等工程师学院2019级本科生胡磊（现为西湖大学生命科学学院2023级博士研究生）为本文的共同第一作者。（以上三名同学均在北京科技大学取得本科学位）。此外，除共同第一作者和通讯作者外，本文其他作者均为北京科技大学在校本科生。
该工作得到了科学技术部、北京科技大学本科生科研创新项目（SRTP）联合资助。

下面是第一作者视角讲述的论文背后的故事，欢迎大家点击阅读～

我们这篇Nature Communication背后的故事（第一作者解读）

文章链接：https://doi.org/10.1038/s41467-024-50194-3

⬇️点击阅读原文即可跳转原文链接～

http://mp.weixin.qq.com/s?__biz=MzA5MDM5MzM4OQ==&mid=2247497250&idx=1&sn=b23592a5d677a6a9c390a946f7c45ab3

BioLinkX

BioLinkX 是华语地区独具特色的去中心化生物信息学俱乐部。我们主要活动形式为每两周一次的 workshop -- 「生信半月谈」。目前已链接 10000+ 生物信息学专业或有一定生信水平的研究者。我们期待与你链接。

最新文章

BioLinkX 人才｜学术部纳新（2024-2025）

换届公示&活动矩阵 | 我们期待与你链接(2024-2025)

2024.08.31 活动小结 | 基因组终章：T2T基因组组装及注释

BioLinkX 帮推｜第四届多组学科研与临床应用大会——武汉站

BioLinkX 帮推｜ 2024青科会国际同一健康论坛通知（第三轮）

2024.10.19社团文化节系列活动｜开幕式BioLinkX文广活动

2024.10.19 活动预告 | 揭示隐藏的蛋白质组：利用moPepGen从蛋白质基因组学中全面鉴定非典型肽

2024.10.17特别活动｜生信技能树创始人——曾健明老师见面会

2024.10.12 活动预告 | 影像组学中的器官分割与肿瘤检测

BioLinkX 人才｜学术部纳新（2024-2025）

BioLinkX「知识分享官」投稿征集中！

BioLinkX 人才 | 社团纳新&实习生招募（2024-2025）（10.8截止）

2024.10.05 活动预告 | 全基因组选择的影响因素及优化策略

周六百团大战B22摊位等你来玩！

2024.09.28特别活动｜社团纳新专场（转发抽奖）微生物多组学&如何入门新领域

换届公示&活动矩阵 | 我们期待与你链接(2024-2025)

2024.09.28特别活动｜社团纳新专场（转发抽奖）微生物多组学&如何入门新领域

BioLinkX「知识分享官」投稿征集中！（转发抽奖）

BioLinkX 人才 | 社团纳新&实习生招募（2024-2025）

BioLinkX 帮推｜纳新：秋意渐浓，虫鸣邀友

BioLinkX 人才 | 社团纳新&实习生招募（2024-2025）

BioLinkX 帮推｜农创秋纳等你来！

换届公示&活动矩阵 | 我们期待与你链接(2024-2025)

2024.9.15 活动预告 | 基于Python的转录组学数据分析框架OmicVerse的新功能与进展

BioLinkX 帮推｜求是强鹰22期招生启动 • 50余位风云浙商和知名企业家导师带徒，赋能青年人才发展！

BioLinkX 速递｜陈铭教授应邀在《人民论坛·学术前沿》发表文章

BioLinkX 帮推｜【教师节专题】来自周耀旗老师的教师节礼物，快来参与吧！

BioLinkX 帮推｜【教师节直播预告】对谈周耀旗老师——向梦想出发，从"我"到"我们"！

BioLinkX 帮推｜王涛/谢阳团队开发单细胞分辨率下对细胞信号交流进行分析的多实例学习模型-Spacia

2024.8.31 活动预告 | 基因组终章：T2T基因组组装及注释

BioLinkX 帮推｜第3期Bioneer一作论坛 Nat Immunol : 基于趋化因子表达谱的巨噬细胞亚群分析

2024.8.10 活动预告 | Deduce Cell Differentiation via Transcriptomics

BioLinkX 人才｜生物信息学方向博士后（数名）招聘：美国德州理工大学健康科学中心

BioLinkX成果速递 | Nature Communications：转录组学分析全生态算法框架OmicVerse

我们这篇Nature Communication背后的故事（第一作者解读）

BioLinkX 帮推｜活动报名：第1期 Bioneer 一作论坛恒河猴新皮层发育的时序性转录动力学

2024.07.18 特别活动｜AI 在蛋白质研究上应用进展和问题 & 30年科研之路分享

BioLinkX 帮推｜报名启程，提交精彩：2024『猛犸杯』大赛生信开发者挑战赛【周提交奖】等你ing

2024.7.6活动预告 | 代谢组学的原理、技术和在营养与慢性病研究中的应用

BioLinkX 知识分享官 | MicroWorldOmics-面向微生物组、病毒组的数据分析桌面应用

BioLinkX 人才｜博士后、研究生招募，浙江大学文物保护材料实验室（生物、化学、材料等多学科）

BioLinkX | 我们期待与你链接

2024.6.22 活动预告 | 质谱流式细胞术(CyTOF)&成像质谱流式(IMC)在医学研究中的应用

2024.06.21 特别活动 | “无边界的科学：去中心化科学的现状与未来”

2024.6.16 活动预告 | 高通量测序在解析骨干亲本优势性状遗传基础中的应用

2024.06.15 特别活动 | 生物技术在文物保护中的应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉