Genome Biology | 复杂生物数据的创新可视化工具Marsilea

学术   2025-01-07 14:05   浙江  
作者:郑易民 Yimin Zheng,郑志航 Zhihang Zheng,André F. Rendeiro(通讯),张仲荣Edwin Cheung(通讯)
单位:
  1. 澳门大学健康科学学院:郑易民,张仲荣
  2. 奥地利国家分子生物学研究中心CeMM:郑易民,André F. Rendeiro
  3. 香港科技大学(广州):郑志航
期刊名称:Genome Biology
链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03469-3
GitHub链接:https://github.com/Marsilea-viz/marsilea
Marsilea简单概念动图:
图片链接:
https://github.com/Marsilea-viz/marsilea/raw/main/img/showcase.gif

随着数据集规模和复杂性的指数级增长,科学研究和数据分析领域对数据可视化工具提出了更高的要求。然而,传统的数据可视化工具在处理多特征、多维度数据时往往面临显著挑战,难以直观展示数据之间复杂的交互关系或揭示隐藏的模式。这些工具通常局限于单一维度或特定领域,无法全面支持科学研究中多样化的需求,导致研究人员不得不借助多种工具完成数据展示,既耗时又容易产生割裂的体验。
为了解决这一痛点,澳门大学郑仲荣研究团队与奥地利CeMM的André F. Rendeiro团队创新性地提出了跨布局可视化(Cross-Layout Visualization)这一全新范式,旨在通过将多个图表整合于统一框架中,提供更直观、灵活的复杂数据展示方法。基于这一范式,团队开发了名为Marsilea的 Python 可视化库,专注于帮助研究人员高效生成具有高度定制化和可扩展性的复杂可视化图表。本文将对这一创新范式及其广泛应用进行详细解读。
Cross layout概念图
图片链接:
https://media.springernature.com/full/springer-static/image/art%3A10.1186%2Fs13059-024-03469-3/MediaObjects/13059_2024_3469_Fig1_HTML.png?as=webp

Marsilea 的设计理念与功能亮点:
1.模块化与多样性
Marsilea 的设计注重模块化,允许用户根据需求逐步添加绘图组件。它内置了多种图表类型,包括四种变体的热图、折线图、柱状图、小提琴图、弧形图、文本标签和序列标志等,满足多种场景需求。除此之外,用户还可以根据自己需求轻松集成新的自定义绘图类型,极大地拓展了工具的适用范围。
2.广泛的数据兼容性
支持多种输入格式,从基本的 Python 列表到 NumPy 数组和 Pandas 数据框,轻松融入现有数据分析流程。
3.双模式界面
Marsilea 提供面向编程用户的面向对象 API,同时也为非程序员提供了无代码的 Web 界面,使得不同得用户群体都能方便使用。
4. 高效代码和用户友好性
与之前的传统可视化工具相比,Marsilea 显著减少了代码量。例如,在对比同样的可视化任务时,Marsilea 所需的代码量只有 Matplotlib 的一半,同时提供了更高的定制性和直观性。
以下是使用Marsilea包进行不同类型数据可视化的例子(可参考:https://marsilea.readthedocs.io/en/stable/examples/Gallery/index.html)
复杂生物数据的高效可视化
例子1:单细胞 RNA 表达数据
研究团队使用单细胞 RNA 表达数据集(PBMC3K)生成复杂热图,展示了不同细胞类型的标记基因(marker gene),并分层显示细胞系谱信息。整个绘图过程仅需 12 行代码,且支持快速调整绘图尺寸、布局间距、绘图顺序等。Marsilea还支持与Scanpy联合使用,详情参考:https://scanpy.readthedocs.io/en/latest/how-to/plotting-with-marsilea.html
图片链接:
https://marsilea.readthedocs.io/en/stable/_images/sphx_glr_plot_pbmc3k_001_2_00x.png

例子2:单细胞多组学数据分析
使用来自 COVID-19 患者的多组学数据(包含蛋白组学和转录组学信息),研究团队创建了由两个跨布局拼接而成的热图,对两种组学特征进行并列比较,并叠加细胞元簇、细胞丰度和基因表达等信息。
图片链接:
https://marsilea.readthedocs.io/en/stable/_images/sphx_glr_plot_sc_multiomics_001_2_00x.png

扩展传统领域的专业绘图
重现其它专业工具的绘图能力,如:
序列基序(sequence motifs):重现 ggmsa 工具的可视化。
图片链接:
https://marsilea.readthedocs.io/en/stable/_images/sphx_glr_plot_seqalign_001_2_00x.png

集合交集图:重现Upset可视化。
图片链接:
https://marsilea.readthedocs.io/en/stable/_images/sphx_glr_plot_upset_001_2_00x.png

突变-表达联合图(oncoprint):重现cBioPortal可视化。
图片链接:
https://marsilea.readthedocs.io/en/stable/_images/sphx_glr_plot_oncoprint_005_2_00x.png

社会网络图:展示角色关系网络(如《悲惨世界》)。
图片链接:
https://marsilea.readthedocs.io/en/stable/_images/sphx_glr_plot_arc_diagram_001_2_00x.png

此外还有创新数据展示
例如,通过42种食用油的脂肪含量数据,研究团队创建了具有层次聚类的堆叠条形图,展示健康和不健康成分(如 Omega 3 和反式脂肪)的分布,并分组显示适合不同烹饪方式的油类。
图片链接:
https://marsilea.readthedocs.io/en/stable/_images/sphx_glr_plot_oil_well_001_2_00x.png

色盲友好设计
例如在鼠胚胎空间组学数据中,我们通过在细胞图的两侧添加密度图,提升了细胞类型定位的清晰度,同时改进了对色盲用户的支持。
图片链接:
https://marsilea.readthedocs.io/en/stable/_images/sphx_glr_plot_mouse_embryo_001_2_00x.png

Marsilea 所支持的跨布局可视化不仅在生物学领域展示了强大的应用潜力,还可广泛应用于其他科学研究领域。其灵活性和可扩展性,使研究人员能够轻松创建个性化的可视化,清晰直观地展示特征间的交互关系。

Marsilea 的在线界面已上线,支持用户零代码创建复杂可视化:http://marsilea.rendeiro.group.

END

内容为【iNature】公众号原创,

转载请写明来源于【iNature】


微信加群


iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。



投稿、合作、转载授权事宜

请联系微信ID:13701829856 或邮箱:iNature2020@163.com



觉得本文好看,请点这里!

iNature
专注前沿科学动态,传递科普信息。
 最新文章