DRUGAI
今天为大家介绍的是来自加拿大麦吉尔大学Jun Ding团队的一篇论文。可转移元素(TEs)对遗传多样性和基因调控起着关键作用。当前的单细胞定量方法通常将多重比对的读数比对到“最佳比对”或“随机比对”位置,并在亚家族层面进行分类,忽略了对准确的、特定位点TE定量的生物学需求。此外,现有方法主要针对转录组数据设计,限制了它们在其他单细胞数据模式中的适应性。为了解决这些挑战,作者引入了MATES,这是一种深度学习方法,能够利用TE位点两侧的邻近读数比对上下文,精确地将多重比对的读数分配到特定的TE位点。当应用于各种单细胞组学数据时,MATES比现有方法表现出更好的性能,提高了TE定量的准确性,并有助于为特定细胞群体识别标志性TEs。这一发展为通过TE的视角探索单细胞异质性和基因调控提供了有效的转座子定量工具,适用于单细胞基因组学研究群体。
可转移元素(TEs),也被称为转座子或跳跃基因,构成哺乳动物基因组的重要组成部分,在基因调控、基因组进化和细胞间异质性中发挥着关键作用。虽然一些TEs仍然活跃并在我们的基因组中跳跃,但大多数已经积累了突变和退化,无法继续活跃转座。因此,许多TEs保留在基因组中,作为调控元件。这些非编码功能包括基因表达调控和长链非编码RNA(lncRNAs)的形成,而这些lncRNAs参与了影响基因表达和细胞功能的重要调控网络。尽管TEs在这些方面发挥着重要作用,但由于TEs具有重复序列和高拷贝数,导致多重比对的测序读数难以量化,因此我们对单细胞层面特定位点的TEs了解有限。
与整体测序相比,在单细胞基因组学中研究TEs对于理解它们的动态调控以及它们对细胞异质性的贡献非常重要。这种方法揭示了TEs复杂的表达模式及其对转录图谱的显著影响。TEs在不同细胞中的活性变化增加了基因调控和细胞动态的复杂性,这在正常发育和癌症等疾病状态中都至关重要。
最近,单细胞测序技术的进展扩大了分析范围,涵盖了多种模式,不再局限于传统的转录组学。这些进展使得在单个细胞中可以分析不同的细胞组分,例如表观基因组以及转录组。进一步的发展中,像10x Genomics的Multiome这样的单细胞多组学方法,甚至可以同时对同一细胞的转录组和表观基因组进行分析。这种双模式分析在有关单细胞多组学技术前沿和应用的综述中得到了重点介绍,展示了其对分子细胞生物学的重大影响,以及在单细胞水平解读复杂生物过程的潜力。尽管有这些进展,目前用于TE定量的方法主要是为单细胞转录组学设计的,在处理其他模式的数据时(如单细胞转座酶可接触染色质测序,scATAC-seq)存在局限。这些方法也缺乏对多组学数据集中TE的联合定量和分析的全面解决方案。因此,迫切需要能够准确比对多重比对TE读数,并在不同模式下进行位点级定量的方法,这凸显了单细胞基因组学和多组学研究中,特别是通过TE视角,所面临的挑战和机会。这些进展还必须扩展到非哺乳动物物种,在这些物种中,TE动态在理解更广泛的生物现象中发挥着关键作用。
模型部分
图 1
MATES是一种专门为单细胞数据集中不同模式下的TE位点级定量设计的工具。该方法涉及几个关键步骤。首先,将原始读数映射到参考基因组,识别出唯一映射到TE位点的读数(唯一读数)和映射到多个TE位点的读数(多重比对读数)(图1a)。接着,计算每个TE位点的覆盖向量,表示该位点周围唯一读数的分布(上下文)。然后将每个TE区域(位点)细分为长度为W(例如10个碱基对)的较小区间。根据区间内唯一和多重比对读数的百分比,将这些区间分类为唯一主导区(U)或多重主导区(M)(图1b)。具体的超参数选择请参见方法部分。
第三步,使用自动编码器(AE)模型来学习表示TE位点唯一读数覆盖向量的潜在嵌入(Vu),这指示了特定TE位点周围的比对上下文。模型还输入了TE家族的独热编码信息(Ti)。第四步,通过多层感知器回归器,使用学习到的潜在嵌入(Vu)和TE家族嵌入(Ti)来预测特定TE位点的多重比对比率(α)。模型的总损失由两个部分组成(L1和L2)。前者是自动编码器的重构损失,而后者反映了TE上相邻小区间之间实际读数覆盖的连续性。由于基因组的相邻性,处于多重主导区(M)的最终读数覆盖应接近其相邻的唯一主导区(U)。
最后,一旦训练了用于预测每个TE位点多重比对比率的模型,作者就可以利用它来计算落入特定TE位点的读数总数,提供TE位点级的概率定量(图1c)。通过将TE定量与单细胞数据中的常规基因定量(例如基因表达或基因可及性)结合,即文中所提到的“基因+TE表达”,可以更准确地对细胞进行聚类,并识别出综合的生物标志物(基因和TE),以表征得到的细胞群体(细胞亚群)。MATES凭借先进的功能,能够有效处理各种单细胞数据模式。它的应用提供了对TE在不同数据集中的作用、细胞聚类以及潜在TE生物标志物的深入见解(图1d)。
除了分析能力之外,MATES还提供了位点级TE可视化和解释功能。该工具支持生成全面的bigwig文件和互动基因组查看器(IGV)图,使研究人员能够直观地探索和解释TE位点在基因组中的读数分配情况(图1e)。这种能力解锁了TE与其位点附近基因之间潜在相互作用的研究,大大增强了我们对TE动态及其对基因调控和细胞功能影响的理解。
需要注意的是,除特别说明的情况外,本文中提到的“TE”是指通过RepeatMasker识别出的重复元件。这让作者可以在研究中提供对基因组重复序列的全面概览。在讨论“更严格”的TE定义时,已具体说明了包含哪些TE亚家族。
MATES在小鼠的10x单细胞RNA-seq数据中识别出2C样细胞及其特定位点
图 2
为了展示MATES在单细胞RNA-seq数据中对TE定量的精确性,作者将其应用于小鼠的10x单细胞化学重编程数据集中。通过这一分析,识别出了2C样细胞(2CLCs)的特征性TEs。通过使用MATES对TE表达进行定量,作者将TE计数矩阵与基因表达谱整合,进行了综合聚类和可视化分析,如图2a、b所示。研究揭示了一个独特的2CLCs亚群(聚类17),该亚群位于重编程的第II阶段和第III阶段之间。值得注意的是,MATES检测到了2CLCs群体,并识别出了它们的特征性基因标记,尤其是Zscan4d和Zscan4c,这些基因在过渡阶段的聚类中具有显著特征。此外,MATES还识别出特定的TE标记MERVL-int和MT2_Mm,这些标记在2CLC聚类中富集,进一步证实了先前研究将这些TEs视为2CLCs定义标记的结果。这些发现突显了MATES捕捉细胞群体及其重要生物标记(基因和TEs)的能力,提供了对重编程过程中细胞动态的深入理解。
接下来,作者进行了以TE为中心的分析,以进一步验证MATES在TE表达定量中对细胞聚类和生物标志物发现的独特作用(图2c、d)。在定量TE表达时,作者特别注意排除TE与其邻近基因之间的重叠区域,以防止基因表达数据的潜在信息泄露。这次以TE为中心的分析专注于TE表达,成功识别出2CLC细胞群体。此外,这一分析不仅确认了之前关于2CLC群体的发现,还再次验证了与之相关的TE标志物MERVL-int和MT2_Mm的相关性,如图2c、d所示。这表明作者的细胞聚类和生物标志物发现并不仅仅依赖于传统的基因表达分析。相反,MATES独立进行的TE定量提供了一致的细胞聚类结果,并准确识别出特定细胞群体的标志性TEs。
为了更清晰、定量地展示基于TE的聚类准确性,作者包括了混淆矩阵,并计算了调整兰德指数(ARI)和归一化互信息(NMI)分数,以突出TE定量分析与传统基因表达分析结果之间的相似性。仅基于TE表达的聚类结果与基于基因表达的结果进行了对比。主要聚类,例如代表SIII_D12和2CLCs的聚类1和聚类12,均被TE单独聚类有效捕获。这些TE聚类与基因表达聚类高度一致,ARI中位数为0.397(P < 1 × )和NMI中位数为0.496(P < 1 × ),表明强烈的一致性。此外,通过专注于仅由多重比对读数驱动的TE表达聚类,MATES展示了其处理这些具有挑战性读数的能力,并精确识别出与特定发育阶段高度一致的标志物。
MATES不仅识别了2CLCs和不同重编程阶段细胞群体的特征基因和TE标记(图2e),还在将多重比对读数精确对准特定位点方面表现出色,这是当前方法面临的难题。例如,scTE只能将多重比对读数分配给亚基因(同一亚家族的TE),无法明确分配到特定基因组位点。而SoloTE虽然能在位点级别定量唯一比对到TE的读数,但它只保留多重比对读数的最佳比对结果,并在亚家族级别上进行定量。相比之下,MATES通过利用每个TE位点学习到的多重比对率(α),以概率方式将多重比对读数分配到基因组中的TE位点。通过这一策略,作者能够在位点级别精确定量TE表达,尤其是在分析2CLC细胞的多重比对读数时表现出色(图2f,g)。与MT2_Mm和MERVL-int相关的多重比对读数与基因Zscan4c和Zscan4d紧密对应,而与Zscan4c和Zscan4d位点紧密对齐的MT2_Mm和MERVL-int相关的总读数明显高于其他对照位点(图2g)。这种对应关系与Zhu等人发现的Zscan4c的激活与内源性逆转录病毒MT2_Mm/MERVL-int的激活之间的相关性一致。
需要注意的是,图g中以橙色高亮显示的基于唯一读数的位点定量代表SoloTE策略。该策略在位点级别处理唯一读数,而多重比对读数则在亚家族级别处理。因此,SoloTE在位点级别只使用了唯一读数,这可能导致无法捕捉到像Zscan4c和Zscan4d这样重要位点的读数,揭示了其潜在的局限性。此外,与通常用于现有方法的亚家族级别TE定量相比,位点特异的TE定量显著提高了聚类的准确性,这在图2h中得到了清晰展示,强调了精确的位点级TE定量的巨大优势。有关更多展示MATES在这10x单细胞RNA-seq数据中有效性的结果,请参见补充图S1。
MATES在人类胶质母细胞瘤的Smart-Seq2全长单细胞RNA-seq数据中定量了与疾病相关的TE表达
图 3
为了展示MATES的跨平台适用性,作者测试并将该工具应用于Smart-Seq2全长测序平台的另一个单细胞RNA-seq数据集,重点分析了一个人类胶质母细胞瘤数据集。通过结合MATES的TE表达定量与传统基因表达分析,作者能够准确定位胶质母细胞瘤微环境中的不同细胞群体,如UMAP图所示(图3a、b)。观察到某些TE的表达模式与重要的胶质瘤基因标记(如EGFR)和TE标记(如HUERS-P1-int和HERVK-int)相关联,同时还发现与免疫细胞基因标记(如CD74)及TE标记LTR2B相关的表达(图3b)。这些关联表明,TE可能与胶质母细胞瘤中的肿瘤异质性和免疫反应相关的过程有关。进一步研究有必要探索其中是否存在因果关系及其潜在机制。将基于TE的细胞分型与基因表达数据结合,揭示了基因与TE之间的详细相互作用。这一整合展示了TE为基础的聚类如何补充基因表达分析,从而提高了细胞异质性研究的分辨率。
为了进一步展示MATES的精确性,作者还基于MATES定量的TE计数矩阵进行了单独的细胞聚类。虽然仅使用TE进行分析的聚类准确性可能不如结合分析,但需要强调的是,TE定量包含生物信息,能够与传统的基因表达分析产生一致的结果。具体来说,作者系统地将仅使用TE的结果与基因表达聚类结果进行了比较,发现两者存在显著的相似性。Leiden聚类的0和1对应免疫细胞,而聚类的2、3和4对应肿瘤细胞。ARI(中位数为0.105,P = 1.03 × )和NMI(中位数为0.161,P = 7.60 × )的得分表明TE表达聚类与基因表达聚类之间存在弱但显著的对应关系。混淆矩阵进一步将TE聚类与基因聚类和细胞类型进行了比较,显示TE聚类0与主要由免疫细胞组成的基因聚类0和1显著重叠,而TE聚类2与主要由肿瘤细胞组成的基因聚类4和5一致。这表明基于TE的聚类可以准确捕捉所有主要细胞群体,并识别它们相关的TE标志物(图3c,d)。图点图(图3e)不仅展示了特定标志基因、TE和细胞类型之间的关联,还量化了它们的相对表达水平,为数据分析增加了更深入的维度。
除了分析上述亚家族级别的TE表达外,MATES的位点级TE定量提供了更全面的细胞景观视图(图3f-h)。这种方法有助于识别出与之前在亚家族级别确定的标志性TE相对应的高表达TE位点。值得注意的是,即使是同一个TE亚家族,例如LTR2B,不同的位点也可能表现出不同的表达模式(图3h,i),这凸显了精确的位点特异性TE定量的重要性。
位于chr3∣104522003∣104522491∣LTR2B(染色体∣起点∣终点∣TE)的LTR2B位点是免疫细胞中特异高表达的TE标记,它靠近CD166基因,暗示了潜在的调控相互作用。CD166在免疫细胞的粘附和功能中起关键作用,可能通过LTR2B的调控元件受到其影响。TEs能够通过提供启动子、增强子和转录因子结合位点来影响附近基因的表达,促进快速和动态的基因表达变化,这对免疫反应至关重要。此外,TEs是表观遗传修饰的靶点,进一步调控附近基因,增强免疫细胞的适应性。要完全理解它们之间的相互作用,还需要进一步的实验分析。
此外,与亚家族级别的定量相比,位点特异的TE定量显著提高了细胞聚类的准确性,如图3j所示(P = 5.48 × ),这凸显了其在分析细胞异质性、理解TE功能中的关键作用,并显示出其相对于传统亚家族级别分析的优越性。有关识别出的肿瘤细胞和免疫细胞的顶级TE位点标记及其附近相互作用基因的信息。
作者的结果验证了MATES在处理全长单细胞RNA-seq数据时的稳健性,强调了其在不同测序平台的单细胞RNA-seq数据集中进行深入细胞分析的有效性。虽然一些现有的方法(例如scTE)可以适应处理全长单细胞RNA-seq数据,但它们的性能往往不尽如人意,这突显了MATES在高效处理和解释这些数据集方面的价值。
编译|黄海涛
审稿|王梓旭
参考资料
Wang, R., Zheng, Y., Zhang, Z., Song, K., Wu, E., Zhu, X., ... & Ding, J. (2024). MATES: a deep learning-based model for locus-specific quantification of transposable elements in single cell. Nature Communications, 15(1), 8798.