WebGestalt 2024:基因集分析以及对代谢组学和多组学数据库

学术   2024-10-17 18:00   湖北  

组学技术的快速发展为理解复杂的生物系统提供了前所未有的机会。然而,由于数据类型、标准和分析要求的差异,对不同组学数据的分析和整合仍然具有挑战性。WebGestalt是功能富集分析中广泛使用的工具,使研究人员能够通过过表示分析 ORA)、基因集富集分析 GSEA 和基于网络拓扑的分析 NTA 来解释组学数据。为了响应研究界不断变化的需求,WebGestalt 2024 https://www.webgestalt.org)更新不仅重构底层数据库并增强了平台的现有功能,而且还引入了重要的新功能,包括对代谢组学的支持和新的多列表分析功能。

代谢组学是对生物系统中小分子代谢物的综合分析,可深入了解代谢状态和生化活动。通路分析已成为代谢组学数据集功能解释的关键工具。然而,这种分析面临着重大挑战,例如代谢物鉴定缺乏标准化,代谢物在单个通路数据库中的表示不完整,以及为广泛采用的ORA 方法选择合适的背景集的复杂性。为了应对这些挑战,WebGestalt 2024 引入了对多种代谢物 ID 类型的支持,利用了多个通路数据库,并采用 ORA GSEA 方法来增强人类代谢组学数据的通路分析。

此外,组学数据的整合——无论是跨独立研究进行荟萃分析,还是在跨多个组学平台进行多组学分析的单一研究中——都提供了一个独特的机会,可以更深入地理解生物系统。WebGestalt 2024 中引入的多列表分析迎合了元分析和多组学分析,解决了与增加的数据复杂性、计算要求和结果解释相关的挑战。

代谢组

对于代谢组学数据的通路分析,RaMP-DB被用作的主要通路数据来源。该数据库汇总了来自多个成熟存储库的人类代谢通路,包括 KEGGReactomeHMDB WikiPathways。值得注意的是,每个数据库都涵盖不同的代谢物,其中许多代谢物是单个数据库独有的。具体而言,HMDB含有49968种代谢物,其中48933种(98%是该数据库独有的。尽管其他数据库的代谢物较少,但Reactome WikiPathways >44% 的代谢物对于每个各自的数据库都是独一无二的。总体而言,RaMP-DB中列出的代谢物中只有不到1%存在于所有四个数据库中。用户可以灵活地选择单个通路集合,也可以选择完整的RaMP-DB 通路集合进行富集分析。由于RaMP-DB只是连接来自各个数据库的路径,因此存在大量的路径冗余。因此,在使用完整的RaMP-DB通路集合进行富集分析时,利用 WebGestalt 中的冗余减少功能是有帮助的。

代谢组学数据的通路富集分析是使用WebGestalt 中实现的 ORA GSEA 算法进行的。GSEA是一种计算密集型方法,它利用所有代谢物的统计结果,无需根据差异丰度和背景集选择特定代谢物。这与ORA形成鲜明对比,ORA更省时,但需要预先选择差异丰度的代谢物以及适合分析的背景集。WebGestalt通过将背景集限制为用于富集分析的通路数据库中记录的代谢物,解决了潜在的注释偏差。为了进一步减轻实验偏倚,建议用户通过提供研究中量化的代谢物列表来完善背景集。使用非靶向代谢组学数据集说明了为ORA 选择合适的背景集的重要性。该数据集比较了用离子载体羰基氰-4-(三氟甲氧基)苯腙 FCCP)处理的 HeLa 细胞,该细胞会破坏线粒体膜电位,与用DMSO 处理的对照细胞,每种条件都有 8 次重复。通过WebGestalt中的GSEA分析该数据集,利用Limma计算的P值的有符号负对数,并使用WikiPathways数据库,揭示了12个显着下调的途径。通过ORA分析同一数据集,使用Limma鉴定的显着下调代谢物和仅限于定量代谢物的背景集,确定了24个显着下调的通路,11个(46%)与GSEA鉴定的通路重叠。将背景集扩大到包括WikiPathways中注释的所有代谢物,导致鉴定出另外18个下调的通路,其中只有1个(5.6%)与GSEA鉴定的通路重叠。这些结果表明,实验偏倚可能引入假阳性。在富集分析之后,用户可以访问富集通路的颜色编码通路图。这些图谱有效地突出了不同代谢物在通路中的参与,从而直观地理解了输入代谢组学数据中涉及的代谢相互作用和功能。这些示例可以从WebGestalt 2024 的首网页访问。

对于基于基因的通路分析,来自现有通路数据库的基因集经过精心策划,但并未完全包含已发表文献中可用的大量通路信息。通路图OCR PFOCR)项目结合使用机器学习、光学字符识别 OCR 和手动管理,成功地在已发表的文献中识别了数以万计的通路图,并从这些图中提取了基因,为通路分析提供了宝贵的资源。已将这些通路图衍生的基因集纳入WebGestalt基因集数据库,其中人类为49361个,果蝇为36373个,小鼠为19595个,斑马鱼为6796个,酵母为1764个,蛔虫为1546个。该集合包括传统通路数据库中不存在的数千个基因,从而为发现和研究提供了新的途径。在PFOCR中使用这些通路进行富集分析的一个明显优势在于,它们全面覆盖了已发表文献中记录的通路,尤其是那些在传统通路数据库中缺失的最新出版物中的通路。

多组学分析

这一新功能需要输入ORAGSEA的多个分析物列表。它支持四种类型的分析物:基因、蛋白质、翻译后修饰(PTM 和代谢物。为了方便使用这一新功能,我们实现了一个基于选项卡的界面,允许用户输入、组织和标记多个列表以进行一次分析。输入数据的格式与用于单一列表分析的格式保持一致。具体来说,对于ORA,用户可以在单列中输入分析物列表,也可以包含相同格式的可选参考列表。对于GSEA,用户必须提供研究中所有分析物的单列列表以及每种分析物的相应数值。这些值可以表示倍数变化、有符号减去对数p 值、相关系数或其他统计测量值,用于对分析物进行分级以进行富集分析。为了进一步简化数据输入,我们还引入了新的身份检测和数据库过滤系统。该系统可自动识别输入到网络界面的ID 类型,并根据所选的分析物类型过滤掉不兼容的数据库,从而简化用户体验。

对于多列表分析,我们实施了一种后期整合方法。具体来说,WebGestalt分别对每个列表运行丰富分析,然后使用 Stouffer Z 评分方法对每个路径的每个输入数据集的 P 值进行积分。报告了得到的 meta-P 值和相应的多重检验调整P meta-FDR)。在 HTML 输出页面上,用户可以使用交互式条形图和表格查看集成分析的结果。用户还可以使用选项卡来查看每个数据集的单个结果。对于KEGG WikiPathways,创建了多色路径图,提供各个输入数据集的视觉表示,以便于比较。

WebGestalt 2024 的主页上,提供了两个示例供用户探索新引入的多列表分析功能。第一个示例展示了一项基于ORA 的荟萃分析,旨在确定与黑色素瘤中 pembrolizumab 治疗耐药性相关的途径。该分析纳入了来自ClinicalOmicsDB的三项独立临床试验的数据,使用每项研究中耐药肿瘤丰度增加的前500个基因作为输入。针对WikiPathways的分析确定了每个数据集的丰富途径以及集体。对于meta分析中确定的通路,相应的多色通路图会突出显示来自各个输入基因列表的基因。第二个示例涉及针对WikiPathways数据库的基于GSEA的多组学分析,输入包括用于图的差异代谢组学数据,以及来自同一研究的RNASeq 和蛋白质组学数据。该分析分别确定了每种组学数据的富集通路以及所有三种组合。对于在多组学分析中鉴定出的通路,相应的多色通路图将分析中鉴定出的所有前沿基因的来自不同数据类型的GSEA排名指标可视化。

谢!


  

英拜

课题设计与申报|分子生物学实验|细胞|机制调控|多组学检测分析




英拜生物
英拜生物提供专业的课题设计与申报服务,拥有完善的分子实验、细胞功能实验、机制调控实验,动物模型以及多组学检测分析检测平台,为您的科研助力!
 最新文章