疾病的发生发展的本质,源于细胞状态的改变和细胞生态系统的异常,这些均受到遗传因素和环境因素的共同影响。在过去几十年,科学家们不断尝试以更精密尺度和更高分辨率来探索细胞内部信息的规律,从而深入理解疾病机制,寻找精准治疗的新靶点和干预手段。建立人类肺组织的单细胞多组学图谱,对于理解呼吸疾病的复杂机制至关重要。然而,该领域内仍面临不同层次组学数据整合困难,转录调控的高度细胞类型特异性和环境暴露互作等核心挑战。
针对以上问题,2024年9月12日,中国医学科学院基础医学研究所龙尔平、美国国立卫生研究院Jiyeon Choi、韩国延世大学Eun Young Kim团队合作,在《Nature Communications》(IF=14.7)上发表了题为“Context-aware single-cell multiomics approach identifies cell-type specific lung cancer susceptibility genes”的研究论文。该研究运用单细胞转录组结合表观遗传组测序技术,建立了第一个人类肺组织单细胞多组学图谱;通过开发不同层次的多组学整合手段,发现介导肺癌遗传易感性的不同细胞亚群、关键分子及信号通路,阐明细胞类型特异的肺癌易感基因和演变规律,为肺癌提供具有潜在临床应用价值的准诊疗靶点和关键分子表型。
图1 本研究的总体思路流程
本研究重点关注吸烟状态作为主要的环境暴露因素,并聚焦于肺癌起源细胞,以捕捉内源性的谱系特异性基因调控。收集了来自性别和年龄匹配的吸烟者和非吸烟者的远离肿瘤的正常肺组织样本(每组8个样本),这些样本在进一步处理前被新鲜分离并冷冻保存。采用snATAC-seq 和 snRNA-seq 来联合分析肺组织中每种细胞类型的染色质可及性和基因表达。1. 通过snATAC-seq结合snRNA-seq分析鉴定出经典和瞬时肺细胞类型
通过使用snATAC-seq 和 snRNA-seq 生成了单核染色质可及性和基因表达矩阵。在质控之后,从 16 个样本中获得了117,911 个高质量染色质可及性和基因表达谱的单核,被聚类并分配到 23 种细胞类型(图 2A)。总共鉴定出47,453 个上皮细胞(40.2%),这与基于流式细胞术的估计值非常接近,支持了富集策略和细胞类型注释的有效性。同时鉴定 36,308 个免疫细胞(30.8%)、28,395 个内皮细胞(24.1%)和 5,755 个基质细胞(4.9%)(图2B)。与已发表的人类肺研究一致,在所有 23 种细胞类型中观察到了细胞类型特异性的经典基因表达标记(图2C)。
图2 snRNA-seq和snATAC-seq的联合图谱鉴定人肺的主要细胞类型
值得注意的是,鉴定了一种罕见的细胞类型,即增殖的 AT2 细胞(0.13%),这些细胞表达了 AT2 标志物(SFTPD)以及细胞增殖标志物 STMN1、TYMS、TOP2A、CDK1 和 MKI67,这与之前的两项研究(“AT2-proliferating”和“cycling-AT2”)和 HLCA 注释一致(图 2D)。与基因表达数据一致,观察到在增殖的 AT2 细胞中,STMN1、TYMS、CDK1 和 MKI67 的启动子邻近增强子区域周围的染色质可及性与 AT2 细胞中的情况有显著差异。为验证这一发现,使用免疫组化(IHC),并在肺泡中一小部分表达 SFTPD 的细胞中检测到了Ki-67 与SFTPD 的共染色。
2. 上皮细胞和免疫细胞特异性顺式调节是肺癌相关变异的基础
通过联合欧洲、东亚和非洲血统以及主要肺癌组织学类型和吸烟状态的四项最新肺癌 GWAS 研究,编制了一组候选因果变异(CCVs)(图 3A)。基于 GWAS 统计数据和连锁不平衡(LD),纳入了 51 个非重叠的GWAS 位点和 2,574 个独特的 CCVs。为表征这些 CCVs 如何与 cCREs 对齐,进行了 CCV-cCRE 共定位分析,随后进行了等位转录因子丰度和足迹分析(图 3B)。
首先,观察到 35 个 GWAS 位点中的 323 个 CCVs(测试的 CCVs 的 12.5%)与一个或多个细胞类型的cCREs 共定位,这表明这种方法覆盖了相当大比例的 GWAS 位点,并且实现了显著的变异优先级排序。为表征肺癌 GWAS 信号最富集的肺细胞类型,首先使用 SCAVENGE33 整合了 GWAS 和 snATAC-seq 数据,然后通过评估 cCRE 是否仅在特定细胞类型或类别中被检测到,定义了每个 CCV-共定位 cCRE 的细胞类型特异性。61% 与cCREs 共定位的 CCVs 在单一细胞类型类别中被检测到,其中 28% 在上皮细胞、20% 在免疫细胞、9% 在内皮细胞、4% 在基质细胞中被检测到(图 3C)。这些类别特异性的 CCV-共定位 cCREs 在免疫细胞中显著富集,观察到 5 个位点被分配给上皮细胞类别,4 个位点被分配给免疫细胞类别(图 3D)。这些结果表明,上皮细胞和免疫细胞是肺癌 GWAS 位点背后的重要细胞类型。
图3 肺癌相关功能变异的细胞类型特异性特征
在细胞类型特异性CCV共定位的cCRE中,包括了来自罕见肺上皮细胞类型的cCRE。在15_5p15.33区域,两个CCVs(rs7726159和rs7725218)与一个特定于基底细胞(一种占团队数据集中总肺细胞1.8%的上皮细胞类型)的cCRE共定位(图4A)。TERT基因在胚胎干细胞中表达活跃,但在分化细胞中沉默;TERT的再激活是多种癌症类型中细胞永生化和肿瘤发生的核心过程。与这一观点一致的是,气道和肺上皮中的基底细胞被认为是具有自我更新能力的干细胞/前体细胞。为了进一步研究这两个与cCRE重叠的CCVs的功能,团队使用A549肺癌细胞系进行报告基因检测,比较了每个变异体内肺癌风险和保护等位基因的增强子活性。结果显示,其中一个变异体在FDR<1%的情况下显示出显著的等位转录活性,且与肺癌风险相关的等位基因表现出较高的水平(图4B)。这些数据表明团队的数据集在检测潜在调控基因表达的细胞类型背景下的肺癌易感性方面可能有用。为进一步优先考虑从cCRE共定位变异中潜在的功能变异,团队利用细胞类型特异性的转录因子(TF)表达和TF足迹分析进行了TF分析。结果表明,来自29个GWAS位点的111个cCRE重叠的CCVs通过平均足迹检测,或者通过细胞类型匹配的TF丰度得到支持,并且来自15个位点的37个CCVs在所有四个类别中都得到了验证,提供了实质性的变异优先级排序。其中就包括之前确定的多癌相关功能性变异rs3769823,它与一个CASP8替代启动子内的多细胞类型cCRE共定位(图4C)。这个错义变异被证明可以改变CASP8蛋白活性,并影响肺癌细胞的凋亡和增殖,但它也在永生化的黑色素细胞和黑色素瘤细胞中表现出强烈的等位转录活性。在预测对这个变异展示出等位结合亲和力的许多TF中,IRF8在树突状细胞中大量表达,这种细胞类型中也检测到了其结合基序的平均足迹谱型(图4D-F)。已知功能性变异的识别为团队的TF丰度和足迹方法提供了支持,以进行变异优先级排序,并为进一步了解已知易感基因的潜在细胞类型特异性作用提供了新的见解。团队的数据集确定了肺部与肺癌相关的细胞类型,并提名了可能受到细胞类型特异性调控的肺癌CCVs,包括涉及潜在等位TF结合的一类。
3. 多层次的关联分析鉴定肺癌特异性的候选易感基因
首先进行了“cCRE 模块”分析,找到表现出共可及性的 cCREs,并为它们分配一个独特的 cCRE 模块成员身份。然后进行 cCRE-cCRE 和 cCRE-基因相关性分析,以识别那些可及性与启动子 cCRE 的可及性和/或附近(±1 Mb)基因表达显著相关的 cCRE 或 cCRE 模块(图 5A)。这种多层次系统提供了六个不同级别的cCRE-基因关联,其中第 6 级具有最强的证据。共有 401 个基因来自 29 个 GWAS 位点,在第 1 到第 6 级别与肺癌 CCV-共定位 cCREs 关联。其中,有 18 个位点中的 64 个基因在第 6 级别具有最强的证据。这 18 个位点中有10 个位点的一个或多个基因是通过已发表研究中的基于整体组织 eQTL 的共定位或全转录组关联研究(TWAS)鉴定出来的,而 17 个位点有一个或多个之前未被鉴定出的基因(图 5B)。这些数据表明, cCRE-基因关联方法可以通过基于组织的 eQTL 方法进行验证,并进一步识别出更多的候选肺癌易感基因。
除了从肺癌GWAS基因位点中验证已知基因和识别先前未知的候选靶基因外,数据集还允许通过多个共同遗传的肺癌相关变异来分解复杂的细胞类型和上下游特异性基因调控模式。首先,大多数位点显示了潜在的特异性基因调控和多个候选易感基因的复杂情况。其次,观察到多个高连锁不平衡(LD)的 CCVs 可能通过独立但相关的 cCREs 单独影响目标基因的表达。在 28_8p12 位点,三个 CCVs 与三个主要在上皮细胞类别中观察到的不同 cCREs 共定位。这三个 cCREs 属于同一个 cCRE 模块,并且每个cCRE 都单独与 NRG1 基因表达在第 6 级别关联(图 5C)。与这一发现一致的是,这三个 cCREs 与基于染色质相互作用模型(activity-by-contact chromatin interaction model)在肺细胞系中分配给 NRG1 的区域重叠。NRG1 也是使用 GTEx 肺组织 eQTL 数据集在这个位点中的一个 TWAS 基因。第三,观察到不同的 CCV-共定位 cCREs 子集可以与细胞类型特异性的目标基因关联(图 5D)。具体来说,三个与六个 CCVs 共定位的 cCREs 主要在免疫细胞类别中被检测到,并与 JAML 表达相关联。另一个与三个 CCVs 共定位的 cCRE 主要在上皮细胞类别中被检测到,并且与 MPZL3 表达显著相关。值得注意的是,JAML 和 MPZL3 都通过使用肺组织的 eQTL 共定位和TWAS 方法被识别出来,但之前并不清楚哪些基因在哪些肺细胞类型或背景下表达并因此具有功能。这些数据表明,在同一个肺癌相关位点内,基于细胞背景的上皮细胞和免疫细胞特异性的肺癌易感基因可能共同发挥作用。
图5 cCREs与基因之间的关联以及展示特异性遗传调控机制的代表性位点
1、本研究建立一个定制的单细胞多组学数据集,能够表征与肺癌相关的环境暴露和假设的起源细胞类型。利用这个数据集识别大多数已发表的肺癌相关位点的候选功能变异和易感基因,其中许多显示出细胞类型和上下游特异性。2、通过使用流式细胞仪(FACS)分选和细胞类型平衡,发现使用来自实体组织的冷冻分离细胞进行单细胞应用的可行性,本方法能够灵活地冷冻保存分离的组织,并通过基于细胞表面标志物的分选富集感兴趣的细胞群。3、研究发现上皮细胞和免疫细胞类别,包括罕见细胞类型,如增殖的II型肺泡细胞(AT2-proliferating cells),对于肺癌易感性贡献最大。这些发现支持了先前关于AT2细胞是肺腺癌起源以及稀有干细胞/前体细胞可能在肺肿瘤发生中重要的假设。总之,本研究定位64个肺癌易感基因,为后续的药物研发和干预提供具有潜在临床应用价值的精准诊疗靶点和关键分子表型。
Driving innovation for better life!