近年来,随着单细胞技术的飞速发展,单细胞多组学数据在癌症研究中展现出了无可比拟的优势。这些数据不仅揭示了癌症异质性背后的分子机制,还为探索癌症的发生发展提供了全新的视角。然而,随着海量数据的不断累积,如何有效整合利用这些数据资源,对于广大缺乏生物信息学背景的研究者来说是一大挑战。
与传统的组学研究方法相比,单细胞多组学技术能够在单细胞分辨率下捕获多维度信息,例如转录组、表观组和基因组等,为解码癌症的复杂生物学特征提供了强有力的工具。然而,这些数据通常分散于不同的研究中,缺乏一个系统化的整合平台,导致研究者在数据挖掘中耗费大量时间和精力,特别是广大缺乏生物信息学经验的研究者难以有效利用这些数据。此外,目前已有的一些泛癌在线工具和数据库主要关注单细胞转录组数据,比如IMMUcan—肿瘤微环境单细胞数据库。尚未涵盖对DNA甲基化、染色质可及性等多组学数据的整合分析,这限制了多组学数据的进一步利用。
2024年11月18日,南京医科大学卞舒惠教授、南京医科大学第一附属医院傅赞教授及南京师范大学孙林华研究员等人研究团队合作在 Nucleic Acids Research 在线发表了题为scCancerExplorer: a comprehensive database for interactively exploring single-cell multi-omics data of human pan-cancer的研究论文,推出了人类泛癌单细胞多组学在线分析工具——scCancerExplorer(https://bianlab.cn/scCancerExplorer)。
该数据库覆盖了50余种人类癌症类型(涵盖生殖系统、血液系统、消化系统、呼吸系统、神经系统、泌尿系统、内分泌系统、运动系统等),整合分析超过600万个单细胞的多组学数据(包括转录组、DNA甲基化组、染色质可及性等),并且为研究者提供了十分丰富的在线分析和可视化功能,包括五大功能模块(共计12个实用功能),旨在助力肿瘤研究者及临床科研人员探究癌症的分子机制。用户只需点击鼠标即可对复杂的单细胞多组学数据进行探究,并且可以一键保存定制化、发表级别的图片用于自己的研究。目前,该数据库完全免费且无需注册即可使用。截至发稿前,已有全球27个国家超过3000名用户进行了使用。
扫描二维码即可在线访问
图1. 主要功能模块概览
模块一:整合多组学分析
通过简单的点击鼠标,即可便捷地获取基因在多种组学层面的综合信息,包括在癌细胞及肿瘤微环境的各种细胞类型中的基因表达水平、TCGA生存分析结果、启动子DNA甲基化水平、启动子染色质可及性水平和转录因子活性等,帮助用户快速从多个角度理解关注的基因及其在肿瘤发生发展中的作用。
图2. 整合多组学分析模块
模块二:单细胞转录组分析
泛癌转录组分析(Pan-cancer analysis):通过访问整合的泛癌数据集,探究不同癌种中细胞类型的表达特征的异同点。
检索基因表达(Query gene expression):查询感兴趣基因在选定癌种和细胞类型中的表达模式,并可同时浏览细胞类型鉴定结果、取样部位、临床分期、性别信息及差异表达基因表格等。
个性化图表绘制(DIY expression plot):支持用户自定义绘制多种形式的图片(点图、热图、小提琴图),展示感兴趣的多个基因在选定细胞类型中的表达模式,例如可视化比较不同采样位置、癌症分期、病理亚型和性别之间的差异,并且生成的图片均可以下载为PDF文件。
图3. 单细胞转录组分析模块
模块三:单细胞表观组分析
局部DNA甲基化绘图(Focal DNA methylation plot):以“糖葫芦图”的形式,直观展示选定区域每个CpG位点的DNA甲基化状态。
启动子区DNA甲基化绘图(Promoter DNA methylation plot):在单细胞分辨率下,展示正常组织、原发位肿瘤和转移位肿瘤中的选定基因的启动子区域DNA甲基化水平。
表观基因组浏览器(Epigenome browser):内置WashU表观浏览器,支持在线探索多种细胞类型全基因组染色质可及性水平和开放区域的共可及性特征。
转录因子motif活性(TF motif activity):支持便捷获取选定转录因子在多种细胞类型中的motif活性评分。
自定义ATAC-seq作图(DIY ATAC-seq plot):用户可便捷查询多个转录因子的motif活性,并生成定制化图形。
图4. 单细胞表观组模块
模块四:单细胞基因组拷贝数变异
基因组拷贝数变异是肿瘤细胞的典型特征,并且在患者间及患者内均呈现出强烈的异质性。该功能模块支持用户在单细胞水平生成基因组拷贝数变异热图,探索多种癌症的基因组拷贝数变异特征及异质性。
图5. 单细胞基因组模块
模块五:TCGA分析
TCGA生存分析(Survival analysis):支持用户对TCGA 33种癌症类型进行生存分析,并且不仅可以根据基因表达水平对患者分组,还可以联合突变状态和肿瘤分期对患者进行分组比较。
ATAC-seq浏览器(ATAC-seq browser):支持用户便捷检索TCGA ATAC-seq数据,探索泛癌染色质可及性模式。
启动子区DNA甲基化(TCGA promoter DNA methylation):在线比较TCGA正常组织和肿瘤中基因启动子区域的DNA甲基化水平,覆盖33种癌症类型。
图6. TCGA数据分析模块
值得一提的是,scCancerExplorer数据库目前包括了卵巢癌、睾丸癌、宫颈癌、子宫内膜癌、前列腺癌、乳腺癌等生殖相关肿瘤超过57万个单细胞的多组学数据。同时,卞舒惠课题组今年发表的生殖医学单细胞多组学数据库SMARTdb(https://smart-db.cn)(Genomics, Proteomics & Bioinformatics, 2024),聚焦生殖发育、衰老及不孕不育疾病,覆盖全生命周期(含胚胎及胎儿期、婴幼儿期、儿童期、青春期、成年期、老年期),涉及早期胚胎、胎儿性腺、睾丸、卵巢、子宫内膜、母胎界面等样本类型,包括人、猴、小鼠、猪等6个物种。在生殖医学领域,scCancerExplorer与SMARTdb两者形成互补优势,全面覆盖生殖发育、衰老及疾病(不孕不育、肿瘤)。
综上所述,scCancerExplorer为癌症研究者提供了一个功能强大且便捷的工具,助力深入挖掘人类泛癌单细胞多组学数据,并揭示癌症发生发展的分子机制。未来,随着更多数据的积累和数据库持续更新,scCancerExplorer将持续为全球肿瘤研究者及临床科研人员提供有力支撑,推动癌症研究的突破。
该研究得到了国家自然科学基金、中国科协第六届青年人才托举工程、南京医科大学高层次引进人才科研启动经费等项目的资助,并得到了南京医科大学高性能计算平台的支持。
数据库访问链接:https://bianlab.cn/scCancerExplorer
原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkae1100/7903385#494337848
课题组介绍
卞舒惠,南京医科大学生殖医学与子代健康全国重点实验室教授、博士生导师。师从北京大学汤富酬教授,开发并利用多种单细胞组学技术及生物信息学工具研究人类生殖及肿瘤的分子机制,已在Science、Cancer Cell、Nucleic Acids Research、National Science Review等国际著名期刊发表多篇高水平研究论文。入选中国科协第六届“青年人才托举工程”,主持国家自然科学基金面上项目。担任National Science Review第二届学科编辑组成员,Journal of Genetics and Genomics和Life Medicine等多个学术期刊青年编委,中国人体健康科技促进会生育力保护与保存专业委员会常委、江苏省整合医学研究会遗传性肿瘤专委会委员等。受邀担任Nature Communications、Genome Biology等多个国际高水平期刊审稿人。