Basic Information
英文标题:Cancer cell states: Lessons from ten years of single-cell RNA-sequencing of human tumors 中文标题:癌细胞状态:来自十年单细胞RNA测序人类肿瘤的启示 发表日期:29 August 2024 文章类型:Perspective 所属期刊:Cancer Cell 文章作者:Itay Tirosh | Mario L. Suva 文章链接:https://www.sciencedirect.com/science/article/pii/S1535610824003040
Summary
Para_01
人类肿瘤是复杂的生态系统,由多样的遗传克隆和恶性细胞状态组成,这些状态在复杂的肿瘤微环境中演变。 单细胞RNA测序(scRNA-seq)提供了一种强有力的策略来解析这种复杂的生物学现象,并在过去十年中使我们对肿瘤生物学的理解能力发生了革命性的变化。 在这里,我们回顾了人类肿瘤中scRNA-seq的第一个十年,并突出了一些从这些研究中获得的深刻见解。 我们首先关注用于稳健定义癌细胞状态及其多样性的计算方法,并突出了一些在癌症类型中常见的基因表达肿瘤内异质性(eITH)模式。 然后,我们讨论了该领域在定义和命名此类eITH程序方面的模糊性。 最后,我们强调了将促进未来研究和这些技术在临床环境中更广泛实施的关键发展。
Introduction
Para_01
单细胞RNA测序(scRNA-seq)彻底改变了我们对复杂生物系统的理解。 在癌症中,内在的遗传和表观遗传变异与外在和空间因素的组合,创造了一个生物学复杂性的典范。 多种遗传克隆的恶性细胞存在于一个复杂的肿瘤微环境(TME)中,包括免疫细胞、基质细胞和血管细胞,其中细胞间的相互作用以及营养和氧气的可用性影响着肿瘤的生长、分化、侵袭、转移和对治疗的反应。 scRNA-seq技术识别出代表所有这些变异层次的程序,定义了癌症生物学的一个基本方面。
Para_02
人类癌症样本的初始单细胞RNA测序研究是由专业实验室在十年前进行的。 这些早期研究通过流式细胞术将单个细胞分离到孔中,或通过微流体设备分离到不同的腔室中。 尽管这些研究提供了对癌细胞和免疫细胞表达程序的详细见解,但它们在可扩展性方面受到限制,通常每个样本只能分析几十或几百个细胞。 高吞吐量方法的发展,如微滴技术,通过并行对数千个细胞进行3′端或5′端测序,显著提高了可扩展性并降低了成本(Macosko等人6和Klein等人7;后来由10× Genomics商业化)。
Para_03
微滴基系统已被确立为高通量单细胞RNA测序最广泛使用的平台。 通过组合条形码技术(SPLiT-seq)的进一步发展,实现了规模的扩大,绕过了分离的需求,利用细胞自身作为分隔单元,进一步降低了成本。 基于纳米孔的系统提供了有趣的便携性和细胞成像可能性。 尽管基于流式细胞术的排序在规模上仍限于微滴微流体技术,但它仍然是细胞选择、多组学分析(例如,RNA + DNA)和全长测序的首选方法。 尽管长读长可能直接从cDNA提供微滴中的全长测序,但总体而言,这些发展使得高通量单细胞RNA测序对大多数实验室变得可行。 这导致单细胞RNA测序癌症研究的数量逐渐增加,在2020年左右达到峰值,并自此保持高位,生成了大量关于肿瘤转录水平异质性的数据和文献。
Para_04
鉴于该领域的迅速扩展以及这些技术在全世界许多实验室的广泛应用,我们在此反思过去十年中的一些经验教训,当前该领域面临的挑战以及未来在临床应用中的发展。我们主要关注癌细胞状态及其在肿瘤内的多样性,这是通过单细胞RNA测序(scRNA-seq)观察到的。
Distinguishing inter-tumor vs. intra-tumor expression heterogeneity
Para_01
单细胞表达谱分析可以用于定义观察到的每种细胞类型的肿瘤间和肿瘤内异质性。 肿瘤间表达异质性已经通过大量分析被广泛研究——例如通过癌症基因组图谱(TCGA)数据集——尽管这种方法存在与肿瘤纯度和肿瘤微环境(TME)组成相关的局限性。 对癌细胞状态的肿瘤内异质性的研究需要单细胞数据,因此在过去十年中得到了显著扩展。 然而,当涉及到恶性细胞表达程序(但不通常适用于免疫细胞和间质细胞)时,肿瘤间异质性在无偏分析中往往占据主导地位。 例如,对一组肿瘤中所有恶性细胞进行表达聚类,通常会为该组中的每个肿瘤形成单独的聚类。 这凸显了肿瘤间表达异质性的非常高程度,反映了每个肿瘤的独特遗传学以及其他潜在影响,如起源细胞、空间位置和肿瘤历史以及各种其他患者特征。 因此,直接分析来自癌症队列的scRNA-seq数据集中的细胞状态,很可能被肿瘤特异性模式所主导,并可能掩盖肿瘤内的多样性。
Para_02
肿瘤间异质性的大贡献可以通过使用旨在去除技术批次效应的整合方法来降低。 然而,由于每个肿瘤是单独处理的,这种方法隐含地假设观察到的肿瘤特异性模式反映了需要去除的批次效应,从而可能会扭曲数据,同时消除真实的生物信号。 整合方法可能在去除某些信号的同时保留一些患者特异性信号,使得解释肿瘤间剩余的差异变得困难。 因此,除了前面提到的两种方法(直接组合多个患者的数据或使用专用方法进行整合)之外,第三种方法涉及对每个肿瘤进行单独分析,以便直接定义肿瘤内异质性,而不将其与肿瘤间异质性混淆,从而将两者视为不同的多样性模式。 在这种方法中,首先在每个肿瘤内单独定义肿瘤内异质性,然后才将生成的模式在肿瘤间进行比较,以识别反复出现的模式或那些特定于特定肿瘤或癌症类型的模式。
Para_03
鉴于肿瘤内和肿瘤间异质性的复杂关系,我们在后续章节中重点关注基因表达水平的肿瘤内模式,我们称之为表达肿瘤内异质性(eITH)。
Defining eITH from scRNA-seq: Clusters, pseudotime, and program scores
Para_01
基于单细胞RNA测序数据,在一个肿瘤样本中发现了多少种不同的癌细胞亚群?这个预期中看似简单的问题实际上很难回答。 许多研究使用聚类方法报告了特定的聚类数量,但结果往往取决于所应用的具体方法,并且依赖于阈值。 即使是已定义的聚类,通常也可以进行另一轮聚类以定义有意义的子聚类,这限制了所报告聚类数量的相关性。 这种复杂性的根本原因是,恶性细胞通常跨越一个转录程序的连续体,而不是一个良好分离的聚类集(图1A)。 这种连续体反映了一系列细胞状态,而不是可能更准确地描述为细胞类型的离散聚类。 当然,连续体可以被分解为离散的聚类数量,这简化了分析并提供了一个(通常是期望的)聚类定义。 然而,观察到的连续体表明,还应考虑其他方法。
图1. eITH分析的途径 (A) 细胞聚类,展示了一个玩具示例,其中三个已识别的聚类由颜色和黑色聚类编号标记。其中一个聚类(#1)与其他细胞高度不同,反映了一种独特的细胞类型。其他两个聚类(#2和#3)反映了一种细胞状态的连续体,这种连续体以一种方法依赖的方式被分解为聚类。聚类#2和#3的细胞也在后续部分中描述,其中通过其他方法描述了它们的多样性。 (B) 上图:伪时间分析按推断的轨迹(从白色到黑色,如箭头所示)对细胞进行排序。虽然这种简单的轨迹可能准确描述某些过程,但癌细胞通常表现出可塑性,以至于它们的状态可能以多种"方向"进展,包括相反的方式,如下图所示。 (C) 细胞可以通过它们在多个eITH程序中的得分来描述,同时优先考虑在肿瘤中反复出现的程序。左图:识别反复出现的eITH程序。首先,通过非负矩阵分解等方法在每个肿瘤中识别eITH程序。其次,将肿瘤特异的eITH程序相互比较,以识别反复出现的程序。在玩具示例中,识别出3个反复出现的程序,并用它们在右图中对细胞进行评分。右图:细胞(如A和B所示)根据它们在三个反复出现的eITH程序中的得分进行着色,这些程序共同描述了它们在基因表达上的变异。
Para_01
表达连续体提出了细胞可能随时间动态改变其状态的可能性,因此一群细胞可能涵盖一系列观察到的细胞状态。 这种动态行为可能是单向的,例如在谱系分化中,也可能是多向的,这一概念通常被称为癌细胞可塑性。 这种可塑性已在多种情境中得到证实,包括黑色素瘤、胶质瘤、胰腺癌和前列腺癌。 因此,癌细胞可塑性近年来受到越来越多的关注,包括将其定义为癌症的标志之一和癌症的重大挑战之一。 可塑性意味着即使我们成功靶向癌细胞的一个特定状态,这一状态也可能被其他癌细胞重新生成,这要求基于对细胞状态动态和决定因素更深入理解的新治疗策略。
Para_02
通过对癌细胞动态行为的这一认识,常见的聚类替代方法是将癌细胞沿着观察到的连续体进行排序,并将每个细胞与其在该排序中的位置相关联(图1B)。 这种排序通常被称为伪时间,基于最初为发育背景设计的方法,26,27在这些背景下,细胞确实沿着一个定义的状态路径进展,反映了它们的分化或成熟。 相关方法,如速度,28试图通过比较最近生成的(未剪接的)RNA与成熟RNA池,直接推断动态细胞轨迹。
Para_03
伪时间方法非常适合连续体,但在癌症背景下面临两个额外的挑战。 首先,与发育背景不同,尚不清楚癌细胞是否确实沿着一个方向的连续体进展,或者它们是否可能向多个方向前进。 因此,在癌症背景下,细胞从低伪时间向高伪时间移动的假设应受到质疑。 其次,虽然分化意味着细胞沿着一系列定义状态进展,但在癌症背景下,细胞可能同时沿着多个轴穿越。 例如,细胞可能增加或减少其增殖相关程序的表达,同时增加或减少应激相关程序、免疫相关程序等。 通过"程序",我们指的是在给定肿瘤中癌细胞之间表达相关的基因集,这些基因集通常与特定的细胞功能或过程相关联。 试图将这些不同的过程合并为单一的伪时间可能会过度简化多样性模式,并掩盖其中一些轴。
Para_04
因此,一种替代伪时间的方案涉及对癌细胞进行多个表达程序的"评分" 相关的表达程序首先可以定义为在给定类型的多个肿瘤中反复变化的那些,从而反映该背景下eITH的一致特征 每个细胞随后可以通过一组程序评分来描述,这些评分可以用于进一步分析,包括如果需要的话进行聚类 这种方法消除了潜在的定向假设,我们认为它更适合存在于癌症中的多维动态
Para_05
这种程序评分的方法引发了一些问题。 例如,在给定肿瘤内哪些程序存在变异? 哪些程序在许多肿瘤中一致地存在变异? 可变程序的身份如何依赖于癌症类型? 这些问题也可以用簇的语言来表述,并且更普遍地关联到基本问题:在给定肿瘤中,哪些过程和表型倾向于在癌细胞中变异。 在后续章节中,我们基于许多最近的单细胞RNA测序肿瘤研究及其元分析,29,30探讨了这些问题,这些研究突出了肿瘤间eITH模式的相似性,并提供了一个框架来讨论各种eITH程序的相对频率。
Most common eITH programs: Cell cycle and stress
Para_01
可以说,癌细胞最根本的特性是它们增殖速度的增加,以至于任何肿瘤都预期包含增殖中的癌细胞。 由于单细胞RNA测序捕捉到的是一个静态快照,因此进一步预期只有少数癌细胞会在其细胞周期中被分析。 相应地,最常观察到的eITH模式是循环细胞和非循环细胞之间的区别。 循环细胞的比例在不同肿瘤之间变化极大,从一些低增殖肿瘤中的罕见(<1%)到一些快速增殖肿瘤中的大多数细胞,以及在典型细胞系模型中,增殖相对于体内肿瘤更为丰富。
Para_02
周期性细胞可以进一步被分为细胞周期的不同阶段。 特别是,存在两种显著的细胞周期程序,在不同类型的癌症和非癌症细胞之间高度一致,主要反映了G1/S和G2/M阶段的核心基因集。 根据这两种程序的相对激活情况,可以将细胞分配到细胞周期的不同阶段。 不表达这两种程序的细胞可能被认为是非周期性的,尽管很难区分它们是在采样时仅处于非周期状态(例如,在G1的早期阶段)还是在一个较长时间内不增殖(静止或衰老细胞,即处于G0阶段)。
Para_03
一些研究将周期性细胞从其数据集中排除。 然而,周期性细胞的数量及其在细胞状态中的分布(由细胞周期以外的过程定义)是重要的肿瘤特征,这些特征可能只有在保留周期性细胞进行分析时才能确定。 在周期性细胞中,大部分转录组可能用于增殖,而其他过程的信号可能比非周期性细胞中的信号更弱,但多项研究表明,周期性细胞仍然与多种状态相关联,尽管某些状态常常富集。 例如,在胶质瘤中,祖细胞状态在周期性细胞中富集,而更分化的细胞在增殖潜力上则减少,但这种关联是部分的,并且可能在不同样本之间有所变化。 因此,试图通过细胞周期的阶段来标准化单细胞RNA测序数据的方法,假设细胞周期与细胞状态之间存在精确关系,这种过度简化的做法可能会扭曲增殖细胞的推断状态,并掩盖癌细胞增殖的更复杂模式。
Para_04
ITH的第二种常见模式是所谓的细胞应激相关程序。 这些包括与缺氧相关的程序,其中顶级基因反映了癌细胞应对缺氧的核心机制,如血管生成(VEGFA)、HIF抑制(EGLN3)和葡萄糖摄取增加(SLC2A1)。 热休克反应和未折叠蛋白反应是常见的细胞应激通路的另外例子,并且在肿瘤中还有各种其他应激相关表达谱。
Para_05
尽管生理应激的多样性,观察到的应激相关程序通常共享一组共同的基因,从而定义了一个通用应激程序,该程序似乎由多种刺激诱导,因此通常难以解释。 这个程序可能与药物耐药性相关,并且似乎由多个AP-1家族(JUN/FOS)的转录因子以及ATF3协调,进一步包括热休克蛋白、DNA损伤基因和其他应激相关基因。 这个通用程序可以由肿瘤解离诱导,因此在某些情况下可能会人为地夸大,但它在避免解离的研究中(如空间转录组学或单核RNA测序[snRNA-seq]数据)也经常观察到,因此是eITH的一个真实程序,广泛存在于所有主要癌症类型中。
Para_06
尽管与压力相关的程序通常难以与特定的压力源联系起来,但它们表明细胞在肿瘤中的位置起着重要作用,不同的肿瘤区域使细胞承受不同的压力,如缺氧、由于竞争导致的营养限制、热量、酸度等。 事实上,最近的研究已经开始证明,癌细胞状态倾向于在空间上分离,反映了迅速发展的空间组学领域。 例如,在胶质母细胞瘤中,缺氧作为肿瘤空间组织的驱动因素。
eITH programs partially reflect developmental and physiological processes
Para_01
长期以来,人们已经认识到肿瘤会利用发育和生理过程中的机制。 在响应环境中的刺激,或者甚至仅仅作为一个随机过程,癌细胞可能会启动那些为发育或生理目的而进化的程序。 最近肿瘤单细胞RNA测序研究的爆炸性增长使得对这个概念的重新分析成为可能。
Para_02
癌症中最著名的发育(和生理)过程的例子可能是上皮-间质转化(EMT)。 EMT在癌症背景下已被广泛研究,被认为赋予癌细胞增加的转移潜能、药物耐药性以及可能的免疫抑制。 然而,EMT在癌症中的角色常常因围绕EMT的存在及其对转移和药物耐药性重要性的争论而变得模糊。 众多单细胞RNA测序(scRNA-seq)研究揭示了富含间质相关基因的eITH程序,支持EMT在癌症中的广泛重要性。 事实上,这类程序在所有被scRNA-seq广泛研究的上皮癌类型中都有观察到。 此外,间质相关程序也在各种非上皮癌类型中被检测到,如黑色素瘤、胶质瘤、神经母细胞瘤和肉瘤(原则上这些程序不应被称为EMT)。 因此,类似于增殖能力和激活应激反应的能力,启动间质相关反应的能力似乎也是不同类型癌细胞的一个共同特征。
Para_03
尽管单细胞RNA测序(scRNA-seq)研究为癌症中存在EMT相关程序提供了强有力的证据,但它们也可能有助于解释围绕EMT的争议。 大多数已识别的间充质相关程序可能更好地被描述为代表一种混合或部分EMT,在这些程序中,细胞保持着上皮标记物的表达,同时仅部分激活了经典EMT描述中可能预期的一小部分间充质标记物。 例如,一些通过scRNA-seq识别的EMT相关程序缺乏传统上被认为是EMT所必需的核心EMT转录因子。 因此,将这些程序注释为EMT相关本身就存在争议,许多研究人员不认为仅因间充质基因的富集就将一个程序视为EMT相关。 总之,间充质相关的eITH程序在癌症中很常见,但它们似乎比发育和生理学中的程序要有限得多,以至于它们甚至作为EMT的指定都值得怀疑。 一些检测到这些程序的研究还提供了它们与转移、药物耐药或生存率降低相关联的证据,尽管大多数scRNA-seq研究在统计学上不足以直接从临床样本中检验这些关联。 结合scRNA-seq的实验模型可能提供了一种精细的方法来剖析耐药性的建立。 例如,在卵巢癌模型中,单细胞分析表明,EMT促进了治疗的适应性,并在建立耐药状态的连续体中发挥了作用。
Para_04
EMT 示例突显了一个更广泛的现象:eITH 往往类似于发育和生理过程,但通常仅反映这些过程的局部版本,可能缺乏典型标志物,其表型后果难以评估。 另一个体现这一概念的例子涉及细胞衰老:多种上皮癌类型,尤其是鳞状细胞癌,常常包含表达与衰老上皮细胞高度相似程序的细胞亚群。 这些细胞似乎不激活衰老的经典标志物(例如,p16 和 p21),并且它们似乎保持了一定的增殖能力,尽管与同一肿瘤中的其他细胞相比有所降低。
Para_05
更多的例子可以在多种其他癌症类型中看到。 在胶质瘤中,大多数癌细胞激活的程序让人联想到几种神经发育细胞类型中的一种——少突胶质细胞前体、神经前体和星形胶质细胞。 但是,诱导这些程序的胶质瘤细胞表达的是这些程序的扭曲版本,并且在转录上彼此之间更为相似,而不是与它们各自正常的神经发育细胞相似。 在黑色素瘤中,癌细胞表达类似黑色素细胞、神经嵴细胞和间充质细胞的程序,但这些状态的信号可能很微妙,难以在特定的黑色素瘤肿瘤中区分,并且这些状态通常并不暗示相应正常细胞的表型(例如,色素沉着)。 在慢性淋巴细胞白血病(CLL)中,恶性细胞重演B细胞程序,但表观遗传层的协调性降低,导致转录异质性增加。 在肺癌中,部分细胞表达一种类似肺泡细胞的程序,类似于AT2细胞,但再一次,这个程序缺乏正常AT2细胞的特征,例如主要组织相容性复合体II类(MHC-II)基因的激活。
Para_06
在结直肠癌中,癌细胞中检测到了多个发育程序,包括结肠干细胞/过渡扩增样细胞和神经内分泌样细胞。 值得注意的是,后一种程序在原发性结直肠癌肿瘤中较为稀少,但在肝转移中变得更为显著,这表明它要么促进了转移,要么被转移微环境所刺激。 有趣的是,神经内分泌程序不仅见于结直肠癌转移中,也见于治疗后肺癌和前列腺癌中,它们分别与对EGFR抑制和雄激素受体的药物耐药性相关。 因此,模仿正常发育或生理的程序被视为某些癌症类型(例如,胶质瘤和黑色素瘤)中eITH的核心组成部分,以及其他癌症类型(结直肠癌、肺癌和前列腺癌)中与转移或药物耐药性相关的eITH的获得性组成部分。
Para_07
综合来看,单细胞RNA测序研究表明,癌细胞通常诱导正常发育或生理程序的扭曲版本,并强调癌症程序往往反映其正常对应物的有限版本,从而使其检测和解释复杂化(见图2)。 此外,癌症eITH程序嵌入在每个肿瘤独特的遗传和转录组之上,导致患者特定的特征(见图2B)。 因此,探索受限和扭曲的癌症版本是否与独特的表型相关,例如那些预期由正常过程产生的表型,将是非常重要的。 在某些情况下,正常过程涉及终末分化,以至于进一步诱导该分化的能力可能会限制肿瘤增殖并提供临床益处。 例如,在IDH突变型胶质瘤中,存在类似星形胶质细胞的细胞,进一步诱导星形胶质细胞分化似乎可以减少癌细胞的增殖并提供临床益处。
图2. 癌症中的eITH程序通常反映了发育或生理程序的有限版本(A)左图:展示了从细胞类型X到细胞类型Y的细胞转变/分化示意图,该过程是单向的,伴随着形态学变化,以及从仅表达X标记到仅表达Y标记的完全转变。右图:在癌症中发现了类似的转变(从X样细胞到Y样细胞),该过程可能是双向的,伴随着部分形态学变化以及从主要表达X标记到主要表达Y标记的部分转变。 (B)左图:在发育/生理过程中,来自不同个体的X和Y细胞在表达空间中按细胞类型聚类,而不是按其来源的个体聚类。右图:在癌症中,X样和Y样细胞在表达空间中按其来源的患者聚类,而不是按其细胞类型聚类;细胞类型对基因表达确实有持续影响(即,Y样细胞相对于同一患者的X样细胞向右上角偏移),但患者特异性效应大于从X样到Y样细胞转变的效应。 (C)列出了在癌症中观察到相似状态的发育或生理细胞类型和细胞状态,以及该状态向或从该状态的转变可能符合(A)和(B)中描述的情景。
eITH programs linked to interactions with immune cells
Para_01
随着对免疫疗法的普遍关注,肿瘤单细胞RNA测序研究的重点已经放在免疫细胞上,尤其是T细胞。 免疫细胞的多样性在其他文献中已有综述,63,64 但即使专注于癌细胞,某些eITH程序也可能对免疫疗法有影响。 例如,有几项研究报告了与将免疫细胞排除在肿瘤核心之外的癌细胞程序,如在滑膜肉瘤中。48 在结直肠癌中,癌细胞表达的三个免疫相关程序,特别是在错配修复缺陷(MMRd)肿瘤中,可能介导与免疫系统的相互作用。65 EMT程序也与免疫抑制相关。44,46,66 有趣的是,这种关联似乎取决于具体环境,因为胶质瘤中的间充质程序与免疫活性的增加而非减少相关。67,68 这种与免疫活性的正向关联似乎是由间充质样癌细胞上调MHC-I和MHC-II基因所介导的。
Para_02
已知MHC-I基因的表达在某些癌症中会被扰乱,反映了免疫逃逸的机制,但这些基因在eITH程序中很少被诱导。 相比之下,MHC-II基因通常由癌细胞诱导,经常与经典的干扰素响应基因(例如,ISG15、IFIT3、STAT1和OAS1)一起。 事实上,在大多数癌症类型中,干扰素响应基因与MHC-II基因高度相关,以至于检测到的eITH程序通常包含这两组基因(干扰素响应基因+MHC-II基因)。 这种紧密耦合可能表明,干扰素由T细胞和其他免疫细胞分泌,然后诱导邻近癌细胞协调表达这些基因组合。
Para_03
MHC-II基因的诱导不仅限于某些癌症细胞亚群,而且在肿瘤微环境(TME)中的各种细胞类型中也观察到。 除了专业的抗原呈递细胞(APCs)如巨噬细胞和树突状细胞外,高表达的MHC-II也在某些成纤维细胞和内皮细胞亚群中观察到。 然而,在这些细胞类型中,MHC-II的表达与干扰素反应脱耦,这表明在非上皮细胞类型中MHC-II基因和干扰素反应存在不同的调控模式。
Para_04
MHC-II和许多干扰素响应基因有时被认为是免疫基因,甚至作为抗原呈递细胞(APC)的标志物,因为它们传统上由免疫细胞类型表达,但如前所述,它们也在某些癌细胞亚群和其他肿瘤微环境(TME)细胞类型中诱导表达。 这些观察结果表明,在解释大量样本中此类基因的表达谱以及在应用解卷积方法评估免疫细胞类型频率时,应谨慎对待。
Leveraging single-cell signatures for deconvolution of bulk profiles
Para_01
已发表的肿瘤单细胞RNA测序数据集的丰富性意味着大多数与癌症相关的细胞类型和细胞状态可能已经被描述。 相应的细胞类型和细胞状态的签名可以被利用来改进bulk RNA-seq的去卷积分析。 去卷积指的是估计样本中细胞类型和细胞状态频率的过程,以便所有这些细胞的组合表达谱能够为观察到的bulk RNA-seq谱提供最佳拟合。 这种方法近年来已广泛使用,反映了单细胞革命的另一成果。 我们预期这种方法将继续被广泛使用,并有助于从bulk RNA-seq数据集中考虑整个肿瘤生态系统。
Para_02
然而,同样重要的是要认识到去卷积方法的局限性。 正如单细胞RNA测序数据集所展示的,被认为是某种细胞类型(或细胞状态)标记的基因几乎从未完全局限于这些细胞,而是也在多种其他细胞类型/状态中表达(尽管水平较低)。 这种"非典型"表达的确切程度在不同细胞类型、样本和研究之间差异显著,这种差异无法通过去卷积方法完全预测,因此限制了它们的准确性。 非典型表达的影响与相关细胞类型/状态的频率成正比。 例如,在推断一种丰富细胞类型(A)和一种稀有细胞类型(B)的频率时,B细胞对A细胞标记的非典型表达影响最小,而A细胞对B细胞标记的非典型表达则有更大的影响。 因此,稀有细胞类型的频率估计特别容易出错。
Para_03
这类错误在估计细胞状态的频率时可能更为明显,因为这些状态的签名特异性较低,也可能被同种细胞类型或其他细胞类型的状态所表达。 细胞周期、应激反应、间充质程序(例如,EMT)、干扰素反应和抗原呈递,都是可能被多种细胞类型激活的表达程序的例子,并且通常会被多种细胞类型同时激活。 因此,相应的签名无法确信地归因于特定的细胞类型。 总之,解卷积是从大量样本中提取更多信息的高度有用方法,但结果应谨慎解读,尤其是对于稀有细胞类型/状态以及那些标记基因特异性有限的细胞类型。 因此,尽管大量样本解卷积取得了进展,但要准确和细致地分析细胞状态,仍将继续需要单细胞测量。
Challenges in annotation of eITH programs
Para_01
我们之前讨论了最常见的eITH程序,包括细胞周期、应激、间充质、衰老、免疫相关(MHC-II和干扰素响应)以及各种发育谱系相关程序。 其他未在之前讨论但仍然常见观察到的eITH程序包括那些与全局蛋白调控、呼吸、MYC激活和分泌相关的程序。
Para_02
然而,考虑定义和命名eITH程序的模糊性是很重要的,这意味着许多研究中报告的程序可能看起来不同,并且可能难以归类到任何这些类别中。 例如,考虑一个肿瘤,其中癌细胞处于两种同样常见的谱系相关状态(A和B),并且其中90%的周期性细胞处于状态A。 标准分析可能会定义一个A细胞的特征,包括真正的A细胞标记以及通用的细胞周期标记(这些标记也会由周期性B细胞表达)。 这种组合特征可能被命名为增殖的A细胞,从而阻碍了对纯A细胞特征和细胞周期的检测。 同样,如果压力主要在一种谱系的细胞中被激活,那么压力基因可能包含在该谱系的特征中,而不是被识别为独立的特征和细胞状态。 这些伴随其他细胞状态的增殖和压力反应的例子,反映了一个更普遍的现象——细胞可能同时开启多个状态程序,从而复杂化了离散特征的检测和定义。 不同细胞过程在状态特征中被合并的程度在不同研究中有所变化,这取决于它们的方法论以及这些过程在各自队列中的协调性。
Para_03
即使对于一组明确定义的标志性基因,通常也会与各种功能性基因集(例如,与发育、机制和代谢过程相关的基因集)富集,因此,不同的研究人员可能会根据其生物学视角和具体方法对这一标志进行不同的命名。 这些注意事项突显了需要统一细胞状态和eITH程序的明确定义,至少要承认各研究及状态定义中的模糊性和相似性。
Future developments: Expanding the reach of single cell profiling
Para_01
尽管肿瘤样本的单细胞RNA测序(scRNA-seq)已经成熟,我们认为下一个前沿是将这些方法更广泛地应用于临床,以便研究更大规模的队列以及高度信息量的样本,例如治疗中的样本、癌前病变和特殊响应者。 这得益于最近的技术发展。 单核RNA测序(snRNA-seq)方法已经开启了 profiling 快速冷冻样本(无论是来自生物样本库还是前瞻性收集的)的可能性。 实际上,在临床中收集新鲜肿瘤组织进行单细胞RNA测序(scRNA-seq)面临着独特的挑战,例如需要快速组织解离。 单核RNA测序(snRNA-seq)绕过了这些需求,因为在冷冻过程中核膜保持完整。 尽管单核RNA测序(snRNA-seq)提供的基因计数较低,并且与单细胞RNA测序(scRNA-seq)相比基因表达有所不同,但所突出的生物过程在单核RNA测序(snRNA-seq)和单细胞RNA测序(scRNA-seq)之间是一致的,为 profiling 大型临床组织样本库提供了一种实用且可扩展的解决方案。
Para_02
另一个关键的近期发展是使用甲醛固定或甚至FFPE(甲醛固定、石蜡包埋)组织块进行单细胞RNA测序和空间分析的可能性。 这些样本一直极难分析,因为甲醛会片段化和交联RNA分子,且在临床样本固定之前,由于收集时间的延迟,RNA也可能发生降解。 尽管有这些局限性,FFPE仍然是临床材料最常见的历史存档来源,并提供精美的组织形态学信息。 近期的方法(如snPATHO-seq、snFFPE-seq和snRandome-seq)通过优化RNA提取和/或利用随机引物(而不是在降解RNA上失效的oligo-dTs)改进了FFPE样本的分析。 我们认为这些方法对于在癌症医学中更广泛地实施单细胞/单核RNA测序工作流程至关重要。
Beyond RNA profiling
Para_01
技术发展正在引领一个新时代,在这个时代,单细胞方法从RNA分析扩展到对同一细胞的多重模态(基因组、表观基因组、转录组、蛋白质组以及/或代谢组)的联合分析。 例如,多组学方法可以将基因型与转录组联系起来,增强了对eITH程序和癌症演变背后的遗传和非遗传机制的整合能力。 其他方法可以联合检测DNA甲基化和RNA,并已被用于深入理解胶质瘤发生中的表观遗传机制失调。 在这些方法中,基因型可以完全测序,或者可以通过特定目标的引物捕获,从而便于与mRNA(GoT81)、蛋白质(GoT-Splice85)或染色质可及性谱(GoT-ChA86)的测量相结合。 尽管许多多组学模态仍在开发中或仅限于专业实验室,但它们的广泛实施预计将增强对基因型、表观基因组和表型之间联系的研究。 通过直接比较同一肿瘤中的不同克隆,这些方法还提供了一个理想的环境来研究体细胞突变对eITH的影响,同时控制其他变量,如患者特异性效应和肿瘤微环境(TME)。
Para_02
除了之前提到的模态外,空间分析技术特别有望彻底改变癌症研究。 每个特定状态下细胞的精确位置将有助于揭示驱动这种状态的机制;不同细胞类型和细胞状态之间的邻近性将揭示重要的细胞间相互作用;而更高层次的肿瘤组织结构将提供对额外肿瘤表型的见解,例如免疫浸润的程度以及与有效免疫反应相关的免疫枢纽的存在。
Para_03
自2015-2016年首次发表空间转录组学研究以来,空间转录组学领域一直在急剧扩展,涌现出多种提供更高分辨率的方法,这些方法要么是基于成像的(通常是杂交探针-based,例如CosMx和Xenium),要么是基于测序的(在原位索引之后,例如Slide-Tags和Visium HD)。 空间转录组学和蛋白质组学在肿瘤上的应用仍处于起步阶段,预计在未来几年内将得到扩展。 诸如Slide-Tags等方法与单细胞多组学工作流程兼容,可能为原位探究遗传和非遗传癌症机制提供一种非常引人注目的方法。 高分辨率空间方法也可能在检测和表征癌前病变中发挥重要作用,通过补充组织病理学以详细、空间解析的分子信息。 由于许多这些技术是非破坏性的,它们为直接纳入现有临床工作流程提供了独特的机会。