癌症由基因突变驱动,引发基因调控变化。此前对癌症的研究多采用 “批量” 分析,难以区分癌症特异性调控与肿瘤微环境中其他细胞的调控。本研究通过单细胞染色质可及性分析,深入探究癌症中的基因调控变化。
2024年9月6日 William J Greenleaf团队发表在《SCIENCE》杂志上的一篇文章:Single-cell chromatin accessibility reveals malignant regulatory programs in primary human cancers中,研究者通过单细胞染色质可及性分析方法,研究了多种原发性人类癌症的染色质可及性景观、肿瘤亚克隆、癌症与健康组织的染色质差异及基因突变等内容,揭示了癌症中基因调控的相关机制,对理解癌症的发生发展具有重要意义。
生信人年底钜惠 - 超多豪礼折扣等你来拿
添加微信
了解活动详细信息
一、亮点
1.单细胞染色质分析:首次对多种原发性人类癌症进行单细胞染色质可及性分析,揭示了肿瘤细胞与其他细胞的区别。
2.深度学习模型应用:运用深度学习模型预测 TF motif 语法,揭示了癌症中染色质可及性的调控机制。
3.非编码突变研究:发现了非编码体细胞突变在癌症中的作用,为癌症发生机制提供了新的见解,有助于癌症的诊断和治疗。
二、背景介绍
癌症是一种严重威胁人类健康的疾病,其发生与发展涉及复杂的基因调控变化。传统的癌症研究主要集中在 “批量” 分析上,但这种方法难以精确区分癌症特异性调控与肿瘤微环境中其他细胞的调控。
为了更深入地理解癌症的分子机制,该文章的研究者们利用单细胞染色质可及性分析技术,对多种原发性人类癌症进行了深入探究,旨在揭示癌症中基因调控的奥秘,为癌症的诊断和治疗提供新的思路和方法。
三、主要结果
1.泛癌症的单细胞染色质可及性图谱
研究者分析了 8 种原发性人类癌症的 74 个肿瘤样本,包括结肠癌(COAD)、乳腺癌(BRCA)和肺腺癌(LUAD)、皮肤皮肤黑色素瘤(SKCM)、肾肾透明细胞癌(KIRC)、肾肾乳头状细胞癌(KIRP)、尿路上皮膀胱癌(BLCA)和多形性胶质母细胞瘤(GBM),其中 GBM 具有特别高的瘤内表型异质性,与单细胞分析方法特别相关(图1A)。其中共分析了 227,063 个通过质量过滤的细胞的染色质可及性景观,使用 UMAP 嵌入可视化细胞,观察到一些亚簇包含来自所有样本的细胞(图1B),这些多样本簇的染色质特征与典型免疫或基质基因相关,且与肿瘤细胞中与 CNA 相关的 ATAC - seq 信号缺乏一致。
随后,研究者对 LUAD 样本进行了研究:聚类分析揭示了 LUAD 样本中推定的肿瘤细胞与免疫和基质细胞亚型之间有明确分离(图1C)。通过将之前的大量 ATAC - seq 数据集与 LUAD 中细胞类型集群产生的 “伪大量” 数据进行比较,发现三个基因座中存在细胞类型特异性信号,这些信号在不同细胞亚型中具有特异性,表明单细胞数据能揭示肿瘤特异性调节变化(图1D、F)。然后从全局 UMAP 中去除免疫和基质细胞类型后,可视化癌症单细胞数据的 LSI 嵌入(图1G),假设分离信号主要来自样本特异性 CNAs,在 BRCA 样本中 HER2 位点的扩增导致了显著的 ATAC - seq 信号差异,验证了这一假设(图1H)。
最后,研究者对癌症样本中免疫细胞和基质细胞的染色质可及性数据集进行了研究。
①模型可视化:使用 UMAP 表示可视化去噪自编码器模型生成的去噪 LSI 嵌入(图1I),发现 HER2 + 癌症的调节模式与腔型或基底样亚型相似,具体取决于样本。
②免疫细胞类型:在所有癌症样本中观察到了主要的免疫细胞类型,包括淋巴细胞、骨髓细胞、内皮细胞和成纤维细胞(图1K、L)。
③B 细胞调节变化:癌症相关的 B 细胞中有超过 3000 个可接近的染色质区域与组织驻留细胞相比更容易接近(图1M),这表明 B 细胞中存在最强的调节变化。
④TF 结合基元评估:利用差异可及区域评估了 TF 结合基元在 T 细胞、B 细胞和巨噬细胞中的富集情况,观察到了一系列 TFs 的丰富图案,包括巨噬细胞中 MECP2 基元可访问性的损失和 ETS 基元可访问性的损失(图1N、O),这表明这些细胞可能抑制免疫反应。
2.深度学习模型预测细胞类型分辨率的TF基序语法
研究者为了解癌症中 TF 结合位点的顺式调控序列语法训练了一个卷积神经网络,该网络从 scATAC - seq 峰和背景区域周围的 1364bp DNA 序列窗口学习到伪体峰概率的映射(图2A),模型具有 8 个级联一维扩展卷积,能实现对整个输入序列的滤波器覆盖,最终通过卷积层和密集层得到预测概率。模型性能方面:对于单个 BRCA 样本,模型获得了稳定而准确的性能,在所有 BRCA 样本的染色体持位交叉验证方案中,表现出高的平衡 AuROC 面积(图2B),说明给定原始 DNA 序列,该模型能准确概括实验数据。
接下来,研究者利用样本特异性 BRCA 峰训练的深度学习模型进行了进一步研究,
①研究目的:通过询问深度学习模型,了解染色质可及性的 DNA 序列驱动因素,确定哪些 TF 基序在建立或维持染色质可及性模式中最重要(图2C)。
②研究方法:使用模型预测在单个 BRCA 样本中哪些序列的原型基序实例可能在远端调控元件中活跃,然后计算全基因组基序富集度。
③研究结果:观察到强烈的亚型特异性 TF 基序富集(图2D),如发光型和发光样 her2 型样品中的 FOX - 和 nr 家族基序,基底样样品中的 sox 家族基元;同时,fox 家族基元在 luminal 和 HER2 亚型中具有很强的染色质可及性足迹,模型提名的 “清洁” 基序显示出更强的足迹强度(图2E),说明 TF 结合增加。
该模型可以进一步深入了解特定增强子染色质可及性的差异驱动因素。例如,在 BRCA 队列的 TOP2A 位点(图2F),不同癌症亚型启动子周围的染色质可及性相似,但神经网络模型显示 FOXA1 基元在 luminal 和 HER2 亚型中活性评分强,SP1 基元在所有亚型中均有活性(图2G,且这一观察结果得到了大量 RNA - seq 数据的支持,即 FOXA1 在 luminal 和 HER2 样品中表达水平高且基序活性强,SP1 表达水平相对稳定。
图2.深度学习模型对伪体单细胞 ATAC-seq 谱的分析
3.用scATAC-seq追踪肿瘤亚克隆
研究者鉴定了两个GBM样本,它们在细胞间的染色质可及性上表现出很大的可变性,导致每个样本内存在多个不同的细胞簇。研究者假设这种变异可能是由细胞亚群内拷贝数的亚克隆差异引起的。随后,研究者对 GBM 样本进行分析,以探究其染色质可及性变异的原因和分子表型。
研究者通过可视化基因组中 10mb bin 上的 scATAC - seq 信号的 UMAP 表示,以及使用 10 - Mb 尺度平均数据识别集群并分析信号差异,验证了 CNAs 驱动亚克隆差异的观点(图3A、B),发现了 GBM 样本中特定的亚克隆基因组拷贝数差异。
紧接着,研究者使用这个10-Mb尺度的平均数据来识别集群,然后通过比较这些基因组箱中鸟嘌呤/胞嘧啶(GC)校正的聚合读取密度以及常见单核苷酸多态性(snp)的相对等位基因特异性代表,来分析这些10-Mb窗口中与非癌细胞相比信号的增益或损失。这种方法显示特定subclonal基因组拷贝数差异(图3C、D)。CNA的这些细微之处不能从大量的全基因组数据中提取,这突出了单细胞可及性数据在识别亚克隆结构方面的实用性。
鉴于 GBM 样本染色质可及性的差异(图3E、F),研究者创建了成人和胎儿人类单细胞脑染色质可及性数据集(图3G),并使用投影方法将 GBM 样本放入该表型空间(图3H、K),确定了 GBM 癌细胞的两种亚状态与成人星形胶质细胞和胎儿胶质细胞或少突胶质细胞祖细胞最接近。
4.癌症中染色质可及性变化的特征
在文章的这一部分中,研究者利用人类癌症和健康组织染色质可及性单细胞图谱,对乳腺癌不同亚型与健康组织之间的信号差异进行了研究。
①构建健康乳腺组织单细胞歧管:从乳房缩小手术组织中构建,并使用标记基因注释乳腺细胞类型,将乳腺癌样本细胞投射到该歧管中(图4A)。
②观察乳腺癌亚型与健康细胞的差异:基底样肿瘤投射到分泌型上皮细胞,腔内样本投射到激素反应性上皮细胞;BRCA 亚型中可达性降低和增加的元素情况(图4B),以及存在癌症相关信号和亚型相关信号(图4 C);基底样 BRCA 癌与健康细胞染色质可及性的差异,即:基底样BRCA癌看起来更像健康的管腔分泌样细胞,而不是健康的肌上皮细胞(图4D)。
③聚集差异峰并分析 TF 基元活性:对乳腺癌差异峰进行聚类分析(图4E),使用神经网络染色质模型鉴定 TF 基元的差异活性(图4F),发现发光型和基底样亚型样品中 TF 基元的可及性变化模式,以及与恶性转化相关的调控呈反相关。
④对 BLCA 和 LUAD 样本的分析:使用健康数据集对 BLCA (图4G)和 LUAD (图4H)样本进行类似分析,观察到调控元件的相似比例变化。这表明,在 BLCA 中,ARID1A 突变导致染色质可及性的全面变化,可能为肿瘤提供有利的调节状态。
5.提出人类癌症中可能的非编码生殖系和体细胞突变
研究者首先通过分层连锁不平衡评分回归估计 GWAS 汇总统计的遗传率比例,发现健康乳腺组织中组织特异性峰显著富集,而健康脑组织相关峰不富集,同时肿瘤细胞中峰值的富集表明乳腺癌风险与仅在疾病状态下出现的调控元件的遗传变异有关(图5A)。
接着,在 BRCA 样本中,神经网络模型显示深度学习模型预测的具有高效应大小 LoA 的变异与非优先变异在可及性损失方面存在显著差异(图5B),验证了神经网络模型对种系变异的功能注释作用。
然后,研究者从 TCGA 和 PCAWG 队列中筛选非编码体细胞突变并进行分析(图5C)。结果表明,优先为 LoA 的突变中可达性降低显著富集(图5D),优先为 GoA 的突变中可达性增加显著富集(图5E),且非编码体细胞突变与 ATAC - seq 样本信号一致(图5F、G),进一步验证了模型预测。此外,ISM 评分显示 LoA 和 GoA 突变在癌症相关基因附近有强烈富集(图5H),这表明癌症相关基因附近的富集与一般选择限制或其他技术因素无关。
最后,通过模型探索突变发现,LoA 突变会破坏相关基序(图5I),GoA 突变会在特定区域引入或增加相关基序(图5J),如 BLCA 和结肠癌样本中的突变分别影响了 TET2 和 MYCN 基因附近的基序。这证明了调控元件中非编码突变的富集,这些突变可能通过影响癌症相关基因的表达调控元件发挥重要功能。
总的来说,这些研究结果为理解癌症发生机制提供了重要线索,对癌症的诊断和治疗方法的探索具有重要意义。
四、讨论
利用单细胞染色质可及性分析揭示了人类原发性癌症的恶性调控程序。研究涵盖 8 种癌症类型,通过构建图谱、训练深度学习模型等,发现 CNAs 驱动染色质变化并可用于识别肿瘤亚克隆,不同乳腺癌亚型有特定 TF motif 富集模式,模型能识别影响癌症基因表达的体细胞突变。该研究为理解癌症分子基础提供了新资源,有助于深入探究癌症的调控变化和细胞表型。
参考文献
Sundaram L, Kumar A, Zatzman M, et al. Single-cell chromatin accessibility reveals malignant regulatory programs in primary human cancers. Science. 2024;385(6713):eadk9217. doi:10.1126/science.adk9217
概普生物 让科研丰富