Basic Information
英文标题:Analysis of multi-condition single-cell data with latent embedding multivariate regression 中文标题:使用潜在嵌入多变量回归分析多条件单细胞数据 发表日期:03 January 2025 文章类型:Article 所属期刊:Nature Genetics 文章作者:Constantin Ahlmann-Eltze | Wolfgang Huber 文章链接:https://www.nature.com/articles/s41588-024-01996-0
Abstract
Para_01
识别不同条件下异质组织中的基因表达差异是一项基本的生物学任务,这可以通过多条件单细胞RNA测序(RNA-seq)来实现。 目前的数据分析方法将组成细胞分为聚类,旨在代表细胞类型,但这种离散分类往往是对潜在生物学的一种不满意的模型。 在这里,我们引入了一种称为潜在嵌入多元回归(LEMUR)的模型,该模型在或在做出离散分类承诺之前进行操作。 LEMUR(1)整合来自不同条件的数据,(2)预测每个细胞的基因表达变化作为条件和其在潜在空间中的位置的函数,以及(3)对于每个基因,识别一个具有一致差异表达的紧凑细胞邻域。 我们将LEMUR应用于癌症、斑马鱼发育和阿尔茨海默病中的空间梯度,展示了其广泛的应用性。
Main
Para_01
过早离散化连续变量会导致数据分析中的伪影和功效损失;然而,在多条件单细胞数据中处理细胞类型和状态的多样性时,这是主要的方法。 Lähnemann等人1描述了克服在下游分析前依赖于聚类或(离散)细胞类型分配的问题,这是单细胞数据分析中的一个重大挑战之一。
Para_02
单细胞RNA测序可以用于研究实验干预或观察条件对一组异质细胞的影响,例如来自组织活检或类器官的细胞。 通常,同一份样本中的细胞共享相同的条件,但来自多种细胞类型和状态(例如,在分化路径或细胞衰老路径中的位置、细胞周期、代谢)。 多条件单细胞RNA测序相对于批量测序的优势在于能够区分不同条件下相应细胞之间的表达变化,以及不同细胞类型或状态之间的表达变化。
Para_03
我们提出了一种生成模型和推理方法来解决多条件单细胞数据分析中的三个任务:(1)将数据整合到一个共同的潜在空间中,(2)对于每个细胞,预测它在任何一种条件下的表达情况,以及(3)发现有趣且具有统计显著性的差异表达模式。
Para_04
对于第一个任务,存在许多方法,这些方法或多或少明确地旨在使在公共潜在空间中仍然代表细胞类型或细胞状态而不是外部条件的剩余变化。
Para_05
然而,只有部分整合方法解决了第二个任务的反事实预测。 Harmony2、Seurat3和MNN4没有将集成嵌入中的位置映射回基因表达空间的标准方法。 相比之下,scVI5、scGen6、CPA7和CellOT8使用自动编码器,在其中编码器将基因表达空间映射到潜在空间,解码器则反向映射回来。 潜在嵌入多元回归(LEMUR)不分别学习编码器和解码器,而是拟合解析可逆函数,从集成嵌入生成条件特异性基因表达值。
Para_06
对于第三项任务,跨条件差异表达分析,最先进的方法是采用一个综合嵌入,将细胞分配到簇中,并使用从bulk RNA测序分析中已知的方法分别对每个给定的簇找到差异表达的基因(‘伪批量’)。 在这里,我们将这一过程颠倒过来。我们利用LEMUR反事实预测来计算每个细胞和每个基因的差异表达统计量,然后选择具有一致差异表达的连接细胞集。
Para_07
LEMUR模型将数据中的变化分解为四个来源: 明确已知的条件, 未明确已知但假定可以用低维流形表示的细胞类型或状态, 二者之间的相互作用, 未解释的残余变异性。
Para_08
LEMUR 在一个名为 lemur 的 Bioconductor R 包和一个名为 pyLemur 的 Python 包中实现。
Results
Para_01
图1a概述了LEMUR的工作流程。该方法以基因×细胞大小的数据矩阵作为输入。 它假设已经进行了适当的预处理,包括规模因子归一化和方差稳定变换11。 此外,它还期望有两个元数据表用于细胞:一个分类变量,对于每个细胞,指明其来源的样本(独立实验单元,例如组织活检或类器官),以及一个设计矩阵12。
Fig. 1: Conceptual overview of LEMUR.
a, 四步工作流程。 b, LEMUR 核心的矩阵分解。 c, 关于 a 中的每一步详细信息:步骤 1,为每个条件分别拟合一个线性子空间。不同条件下的子空间通过仿射变换相互关联,这些仿射变换由协变量参数化。为了这个可视化,绘制了三维基因空间中的两个二维子空间;实际维度更高。 步骤 2,在对照组和处理组预测值之间计算差异表达统计量 Δ 作为差值。该可视化展示了步骤 1 的俯视图。 步骤 3,对于每个基因,将具有相似 Δ 值且彼此靠近的细胞分组为邻域。 步骤 4,在每个邻域内对细胞应用伪批量差异表达检验。 Ctrl.,对照;DE,差异表达;dim,维度;trt,处理。
Para_02
设计矩阵编码一个或多个表示实验处理或观察条件的协变量。 它类似于差异表达工具(如limma13和DESeq2(参考文献14))中的设计矩阵,并且可以解释完全一般的实验或研究设计。 设计矩阵可以包括不需要的变化来源(例如,实验批次)和我们感兴趣的变化来源(例如,处理状态)。 我们将协变量值的独特组合称为条件。 在两个条件比较的简单情况下,设计矩阵是一个两列矩阵,其中第一列(截距)的所有元素都是1,第二列的元素是0或1,表示每个细胞来自哪个条件。
Matrix factorization with known covariate information
具有已知协变量信息的矩阵分解
Para_01
考虑每个细胞作为一个由其测量的基因表达谱定义的高维空间中的点。 流形假设认为数据集中在该高维空间内的一个(未知的)低维流形上。 经验上已经发现,通过主成分分析(PCA)的前几十个分量所构成的线性向量空间可以对那个低维流形做出有用的近似。
Para_02
LEMUR 的核心思想是使用 PCA 的多条件扩展来表示多条件单细胞 RNA 测序数据(图 1b)。 给定一个数据矩阵 Y,PCA 可以用来近似 Y ≈ RZ,其中包含两个较小的矩阵:第一个矩阵 R 包含主成分,这些主成分作为低维线性子空间的基础;第二个矩阵 Z 包含每个细胞相对于该基础的坐标。 在这种基本形式下,没有地方可以明确编码已知的实验或研究协变量。 LEMUR 通过加入回归分析组件来实现这一功能。
Para_03
我们不是使用一个单一子空间,而是为每个条件找到一个单独的子空间。 为此,我们让表示子空间的矩阵 R(X) 依赖于设计矩阵 X 中提供的协变量(图 1c,步骤 1)。 通过这一假设,我们解决了上述分解任务:已知的变化源被编码在 X 中;细胞类型和状态变化由细胞坐标 Z 表示。 虽然 X 是明确已知的,但 Z 是潜在的;也就是说,它是从数据中估计出来的。 这种构建方式允许建模交互作用,也就是说,不同细胞类型和状态下跨条件的基因表达变化是不同的。 这是 LEMUR 的主要特征。
Para_04
这一构造的第二个特征是跨条件整合:来自不同条件下观察到的细胞的数据被映射到一个共同的潜在空间。 默认情况下,这种整合基于相应子空间的对齐,但可以通过表明某些在不同条件下观察到的细胞彼此对应的指示信息来选择性地改进。 此类信息可以以显式地标的形式出现,即表达独特标记基因的细胞,也可以通过诸如Harmony2等方法利用的细胞统计特性来获得。 我们通过向模型中添加仿射变换S(X)来考虑这种对应关系。
Para_05
我们模型的第三个特征是,对于每个细胞,它能够预测在任何条件下该细胞的基因表达谱会是什么样子,即使这种条件只在一个条件下被观察到。 事实上,这些预测不仅适用于那些细胞被观察到的位置,还适用于所有位置,也就是说,也可以用于假设性地内插或外推细胞类型和状态。 我们利用这些预测来发现跨潜在空间区域(即相同或相似的细胞类型和状态)的基因表达变化。
Para_06
图2展示了LEMUR方法的风格化插图。 LEMUR为每个条件拟合一个一维子空间(线),每个条件由施加在共同基空间上的旋转参数化。 参数模型为每个条件中的每个细胞产生预测的表达值,我们寻找潜在空间中的区域(在这里,我们有两个主要区域,左和右)在这些区域中预测值始终为正或负。 在方法部分,我们提供了更正式的数学规范。
Fig. 2: Stylized example with two genes observed in two groups of cells in two conditions.
散点图展示了基因空间和特定条件的一维子空间。详情见方法部分。 预测了每个细胞中的两个基因的差异表达。基因1仅在‘左’细胞类型中相对于对照组在处理组中表达较少;基因2仅在‘右’细胞类型中在处理组中上调表达。 数据来源
Cluster-free differential expression analysis
无聚类差异表达分析
Para_01
我们可以使用这个参数模型预测细胞在任何条件下的表达。 两种条件之间的差异表达(图1c,步骤2)仅仅是它们预测值之间的差,并且可以针对每个细胞进行计算,即使对于任一细胞的数据仅在一个条件的一个重复中被观察到(图2b)。
Para_02
由此产生的差异表达估计矩阵Δ有两个用途:首先,我们可以将每个基因的差异表达值可视化为潜在空间的函数。潜在空间的维度通常是十到一百,仅用于可视化,我们使用进一步的非线性降维到二维散点图,例如均匀流形近似和投影(UMAP)15。示例见图4和图6。其次,我们使用Δ来指导差异表达区域的识别,即一致显示某个特定基因差异表达的一组细胞(图1c,步骤3)。这些区域的目的是连接、凸出且最大,也就是说,如果扩展这些区域,差异表达模式将变得不成比例地不一致且不显著。 由此产生的差异表达估计矩阵Δ有两个用途:首先,我们可以将每个基因的差异表达值可视化为潜在空间的函数。潜在空间的维度通常是十到一百,仅用于可视化,我们使用进一步的非线性降维到二维散点图,例如均匀流形近似和投影(UMAP)15。示例见图4和图6。其次,我们使用Δ来指导差异表达区域的识别,即一致显示某个特定基因差异表达的一组细胞(图1c,步骤3)。这些区域的目的是连接、凸出且最大,也就是说,如果扩展这些区域,差异表达模式将变得不成比例地不一致且不显著。
Para_03
为了排名和评估我们对发现的社区的信心水平,我们不试图测量预测 Δ 的统计不确定性。 相反,我们使用原始数据的伪批量聚集:如果有可用的,则使用原始计数,否则使用对数归一化的值。 对于每个样本,我们将原始计数相加或取该社区中细胞的对数归一化值的平均值,以获得特定于社区的基因 × 样本表(图 1c,步骤 4),然后进行差异表达检验,使用 glmGamPoi16、edgeR17 或 limma13。 这里没有单独的句子,但为了完整性,将上一句视为包含所有信息的句子。
Outputs
Outputs
Para_01
LEMUR产生以下输出:
一个通用的低维潜在空间表示所有细胞(Z), 参数化变换 R 和 S,用于将条件特定的潜在空间相互映射, 每个基因和细胞在任意条件下的预测表达值 (\hat{{\bf{Y}}}), 从设计矩阵构建的任意对比中,每个基因和细胞的预测差异表达 Δ, 对于每个基因和对比,细胞的邻域和显著性统计测量(P 值)。
Para_02
这些中的最后一个通常是最终用户最关心的;其余的对于诊断、质量评估、可视化以及数据的进一步建模使用是有用的。
Para_03
显式的变换R和S的参数化意味着它们可以很容易地在观测数据集之外进行插值或外推,并且可以从低维嵌入反向转换回数据空间。 从这个意义上说,LEMUR是一个生成模型。
Performance assessment
绩效评估
Para_01
我们使用了13个公开可用的多条件单细胞数据集(在数据可用性中列出)评估了LEMUR的表现。 我们遵循Ahlmann-Eltze和Huber11的方法一致地预处理了每个数据集。
Para_02
首先,我们考虑了整合性能:细胞的联合低维表示在保留潜空间中编码的生物信号的同时,如何去除已知协变量(如批次和处理效应)的痕迹? 图3a展示了Kang等人18研究中狼疮患者样本使用干扰素β或载体对照治疗的数据集上的这一情况。 我们通过计算每个细胞的k=20个邻居中有多少来自相同条件(k最近邻混合)来衡量协变量的去除。 对于两个条件平衡的数据集,理想的方法k-最近邻混合值为k/2=10。 我们通过分别比较嵌入数据的聚类与原始数据的聚类来衡量生物信号的保留,用调整后的兰德指数(ARI)的平均值来衡量。 理想的方法得分接近ARI=1。
Fig. 3: Performance assessment.
UMAPs of the latent spaces for the data from Kang et al.18. The k-NN mixing coefficient and the ARI are defined in the main text. b, Density plots of the bootstrapped mean performance for ARI and k-NN mixing across 13 datasets. To adjust for dataset-dependent variation, we divided the k-NN and ARI scores by the average per dataset. c, Scatterplots of predicted (pred.) expression under treatment (y axis) against observed expression (x axis) for 500 genes in each of eight cell types (same data as in a). d, Prediction error as in c, across the same 13 datasets as in b (gray points). Red points show the mean. e, Simulation setup. Left, for one of the implanted genes, a UMAP is shown of the LEMUR latent space, where the color indicates whether an expression change in this gene was simulated for that cell. Center and right, simulated expression values. f, Left, predicted log fold change for the gene from e (Δ=Ŷ^B-Ŷ^A). Center and right, the set of cells inside or outside the inferred neighborhood. g, Comparison of observed false discovery proportion and true positive rate (TPR) for 11 datasets, with ten replicates and the overall mean shown as a large point. The nominal FDR was fixed to 10%. FP, false positive; IFN, interferon; m, months; NK, natural killer; TP, true positive.
Para_03
在13个数据集中,LEMur在这两项指标上的表现与Harmony相似(图3b)。 其他方法在这两项指标之间做出了不同的权衡,没有哪种方法明显优于其他方法。 扩展数据图1显示,在另外七个附加指标中,结果保持一致。
Para_04
运行 LEMUR 的计算成本处于预期范围内的低端,并且与其他近似PCA方法相当。例如,在Goldfarb-Muren数据上计算前50个潜在维度,该数据包含24,178个细胞和20,953个基因(占用4GB的RAM),使用近似的irlba算法19耗时35秒和24GB的RAM。 相比之下,不进行整合地拟合 LEMUR 需要103秒并且需要33GB的RAM。 使用地标或Harmony对细胞进行对齐分别增加了2秒和95秒(扩展数据图2)。
Para_05
接下来,我们评估了LEMUR预测跨条件基因表达的能力。 我们使用它来预测在对照条件下观察到的细胞在治疗条件下的基因表达,并将这些预测与实际上已经接受处理的细胞的数据进行比较。 为了避免过拟合,我们在‘保留’的细胞上评估了预测结果,这些细胞的数据未用于训练。 由于在两种条件下观察到的单个细胞之间没有直接对应关系,我们考虑了注释细胞类型的平均值。 图3c显示了Kang等人18号数据集中八种细胞类型中500个最易变基因的预测-观察对比散点图,涉及四种方法:CPA、scVI、LEMUR和无变化(恒等)的简单预测。 在13个数据集上,LEMUR通过观测值和预测值之间的L2距离测量显示出最小的预测误差(图3d)。 扩展数据图3显示了结果在六个附加指标上的一致性。
Para_06
在第三组比较中,我们测试了 LEMUR 识别具有一致差异表达的细胞群的能力。 我们取用了 Kang 等人18数据中的对照条件下的所有细胞,将它们随机分配到条件A或B,并在部分细胞中植入差异表达的基因。 图3e展示了一个例子。 LEMUR 准确地识别了表达变化,并推断出一个与模拟真实情况重叠良好的细胞邻域(图3f)。
Para_07
我们扩展了这一分析,增加了十个更多的半合成数据集,每个数据集中植入了200个不同的差异表达基因,以评估LEMUR差异表达检验中的I型错误控制情况。 LEMUR平均控制了假发现率(FDR)(图3g,顶部)。 此外,它比对所有细胞进行伪批量测试或对细胞类型或聚类进行子集独立测试更具有功效,这些测试方法类似于Crowell等人9中的方法,或如miloDE10中的邻域测试方法(图3g,底部)。 扩展数据图4评估了LEMUR方法的其他变体的FDR控制和功效。 结果显示,考虑从邻域推断中产生的选择后偏差非常重要,并且通过数据分割成功解决了这一问题。
Para_08
总体而言,这些基准测试表明 LEMUR(1)成功地整合了来自不同条件的单细胞数据,(2)在没有访问先前的细胞聚类或分类的情况下检测细胞类型和状态特异性差异表达模式,以及(3)提供了准确的统计I型错误控制和良好的功效。接下来,我们将LEMUR应用于不同生物数据集的分析。 在下文中,我们应用 LEMUR 来分析不同的生物学数据集。
Treatment–control data: panobinostat in glioblastoma
治疗对照数据:panobinostat在胶质母细胞瘤中的应用
Para_01
赵等人报告了胶质母细胞瘤活检的单细胞RNA测序数据。 五名患者的样本在两种条件下进行了检测:对照组和帕比诺司他,一种组蛋白去乙酰化酶(HDAC)抑制剂(图4a)。 经过质量控制,数据包含了65,955个细胞(扩展数据表1)。
Fig. 4: Analysis of five glioblastoma tumor biopsies.
a, 实验设计。 b, 对数转换数据的UMAP(第一列)和LEMUR产生的潜在嵌入(第二和第三列),按处理和细胞类型着色(第一行和第二行分别)。 c, 肿瘤细胞内LMO2的差异表达分析。内部和外部邻域内的细胞的分面UMAP。中间的散点图显示了供体和条件下的伪批量表达值。右侧,比较邻域内外的差异(红色箭头)。P值基于负二项计数模型的双侧似然比检验。 d, 在控制条件下,子群体内外细胞的比较火山图。注释为涉及翻译活性的基因用红色突出显示。位于水平线以上的基因集FDR为10%。 Nbh.表示邻域;panob.表示panobinostat;diff. in diff.表示差异中的差异;expr.表示表达;cytopl. transl.表示细胞质翻译;scRNA-seq表示单细胞RNA测序。数据来源
Para_02
图4b的左列显示了输入数据Y的二维UMAP。大部分可见的变化与已知的协变量相关:供体和处理条件。 还有一些变化与活检中的不同细胞类型有关。我们使用LEMUR吸收供体和处理效应到R中,将潜在空间维度设置为P=60。 图4b的中间列显示,在将S(x)固定为单位矩阵后,每个细胞的潜在坐标矩阵Z的UMAP。 来自不同样本的细胞更加混合在一起,样本内的细胞异质性变得更加明显。 在使用S通过Harmony的最大多样性聚类来匹配样本间的细胞亚群后(图4b,右列),这种图像变得更加清晰。 在这里,大量的肿瘤细胞群体和三个非肿瘤亚群体变得显而易见。
Para_03
连续改进的潜在空间表示从左到右进一步展示在图4b的底部一行,其中点根据我们从选定标记基因的表达和已知的染色体非整倍体现象(扩展数据图5a,b)获得的细胞类型分配进行着色。
Para_04
LEMUR 的线性潜在空间易于解释。 这在扩展数据图 5c 中得到了体现,该图将 PCA21 的双变量图概念扩展到了多条件设置。 我们可以通过绘制基因的载荷向量相对于 Z 坐标系的位置来探索任何基因的高表达或低表达如何影响细胞在潜在空间 Z 中的位置。
Para_05
使用 LEMUR 的差异表达检测,我们发现帕比司他导致了 25% 的所有基因(10,000 个基因中的 2,498 个)在 10% 的假发现率下发生了细胞亚群特异性的表达变化。 扩展数据图 6 显示了七个基因的差异表达和推断的邻域。
Para_06
我们专注于肿瘤细胞,识别出对帕比诺司他治疗反应不同的亚群(图4c)。 在来自所有五名患者的肿瘤细胞的一个亚群中(共9,430个肿瘤细胞),帕比诺司他治疗导致LMO2下调, 而在大多数肿瘤细胞(n = 36,535)中,LMO2的表达保持不变(图4c,右侧)。 LMO2的产物与转录因子TAL1、TCF3和GATA形成蛋白复合物; 它对于血管生成至关重要,并且最初是在T细胞急性淋巴细胞性白血病中被发现的一种致癌基因22。 Kim等人23研究了LMO2在胶质母细胞瘤中的作用,发现更高的表达与患者生存率降低相关。 他们得出结论,LMO2可能是一个具有临床意义的药物靶点。 为了进一步表征对帕比诺司他治疗通过下调LMO2作出响应的肿瘤细胞亚群, 我们将这些细胞在对照条件下的整体基因表达谱与其它肿瘤细胞进行了比较。 我们发现核糖体基因的表达较低,这与翻译活动减少一致(图4d)。
Time course data: zebrafish embryo development
时间序列数据:斑马鱼胚胎发育
Para_01
Saunders等人报告了斑马鱼胚胎发育图谱,其中包括在受精后18小时到48小时之间每隔2小时收集的16个时间点上的967个胚胎和838,036个细胞的数据(图5a)。 他们利用单细胞RNA测序数据将每个细胞分配到一个通用的细胞类型分类方案,并研究了沿发育时间出现和消失的细胞类型的时态动态。 我们问基因表达变化是否能揭示更多的生物学现象。 因此,我们寻找在共享相同细胞类型注释的细胞间系统性不同的基因表达的时间模式。 为此,我们利用LEMUR预测任何基因在潜在空间中的任何时间点的表达。 为了用较少的参数表示每个基因的时间依赖性,我们使用了具有三个自由度的自然三次样条,遵循Smyth等人的方法。 为了建模潜在空间的变化,我们在潜在空间Z中对来自中枢神经系统的两个细胞(红色和绿色)进行线性插值,并且类似地,在来自表皮(一种覆盖发育胚胎早期阶段的外层上皮层)的两个细胞(紫色和青绿色)之间进行插值(图5b和扩展数据图7a)。
Fig. 5: Analysis of a time course single-cell experiment.
UMAPs基于LEMur的整合潜在空间展示胚胎发育。黑色点表示受精后相应时间窗口内的细胞;灰色点表示所有其他细胞,用于比较。 由于某些细胞类型仅存在于发育的特定阶段,因此预期黑点分布随时间变化。 b, 合成细胞投影到UMAP上。它们介于成对观察到的细胞之间,一对位于表皮(紫色和青绿色),另一对位于中枢神经系统(红色和绿色)。 c, 四个基因的表达预测(平滑线)和平均观测数据(点)随时间(x轴)和潜在空间坐标(颜色)变化。 源数据
Para_02
我们使用了 LEMUR 拟合来筛选在插值潜在空间梯度上样条系数不同的基因,根据交互作用的统计检验(FDR = 0.001)。 图 5c 显示了四个例子的数据,在这些例子中,基因表达的时间差异通过将每个 6 小时间隔内最近邻的观察表达数据进行伪批量处理得到了证实。 例如,krt8 编码一种对表皮的结构完整性、保护屏障功能和正常发育至关重要的角蛋白,对于接近蓝绿色细胞的细胞,其表达随时间减少,而对于接近紫色细胞的细胞,其表达增加。 存在多种可能解释表皮细胞内 krt8 复杂且不同步的时间调控(扩展数据图 7b,c),包括空间结构。
Spatial data: plaque density in Alzheimer’s disease
阿尔茨海默病中的斑块密度空间数据
Para_01
Cable等人在四种经过基因工程改造以模拟阿尔茨海默病淀粉样变性的小鼠的海马体上进行了Slide-seqV2技术。 他们使用显微镜量化了淀粉样蛋白-β斑块的空间密度(图6a)。 因此,斑块密度是一个从一个细胞到另一个细胞变化的观察协变量;这与上述考虑的协变量不同,后者是从一个样本到另一个样本变化的。 Cable等人报告了每种离散细胞类型类别的差异表达分析;然而,这些类别相当宽泛,无法解释数据所提示的渐进变化(图6b和扩展数据图7a)。 LEMUR使我们能够推迟细胞类型分类,并直接识别在自适应发现的细胞子集中低斑块密度和高斑块密度之间表达发生变化的基因。 图6c显示了Jun的差异表达预测,Jun编码一种转录因子,该因子被鉴定为调节β-淀粉样蛋白诱导的细胞凋亡途径的一部分成员27,28,也是LEMUR分析后的前几个命中之一。 较高的淀粉样蛋白-β斑块密度与Jun表达增加之间的相关性仅限于大约20%的神经元,这些神经元在空间坐标和潜在空间中都有聚集(图6d)。 对于其他神经元,这种相关性并不成立(图6e和扩展数据图8b)。 我们将Cable等人的数据投影到Yao等人绘制的海马体参考图谱上,发现这个子集属于齿状回和CA1(前穿质)的谷氨酸能神经元(扩展数据图8a)。
Fig. 6: Analysis of a spatial single-cell experiment.
UMAPs来自四只小鼠海马细胞,其中两只的小鼠空间图按淀粉样蛋白斑块密度(由平滑和归一化的荧光图像计算得出)着色。 是否该细胞是神经元。 LEMUR预测的Jun差异表达(对数2倍变化)。 该细胞是否位于Jun的差异表达区域内。 散点图显示了位于该区域内的细胞、不在该区域内的神经元以及其他所有细胞的Jun表达与斑块密度之间的关系。 该线为通过伪批量值的局部回归(LOESS)拟合。 Coord.,坐标。
Discussion
Para_01
LEMUR 能够对单细胞分辨率表达数据进行差异表达分析,适用于组织活检、器官、类器官或整个有机体等复合样本之间的比较。 该方法允许通过设计矩阵指定任意实验或研究设计,就像在普通线性回归或面向组学的回归方法(如 limma13、edgeR17 和 DESeq2(参考文献 14))中一样。 应用范围包括具有重复样本的两种条件之间的比较,配对研究,例如治疗前后的系列组织活检,具有多个协变量的研究(例如,遗传和药物扰动),协变量之间的相互作用以及连续协变量。 该方法使用连续潜在空间来表示条件内的细胞间变异。 因此,它避免了或推迟了将细胞分类到离散细胞类型或细胞状态的需求,并解决了 Lähnemann 等人1指出的一个挑战。
Para_02
我们展示了这种方法在三个典型应用中的实用性,并在包含13个数据集的综合数据集中对其性能的重要方面进行了基准测试。 这些应用案例包括胶质母细胞瘤患者样本的配对对照-治疗研究,一个以时间为连续协变量的斑马鱼胚胎发育图谱,以及一个以斑块密度为连续协变量的阿尔茨海默病斑块的空间转录组学研究。 我们展示了LEMUR如何识别具有生物学相关性的细胞亚群和基因表达模式。
Para_03
为了实现这一点,我们结合了降维的潜在空间表示与矩阵分解方法中的回归分析。 该模型具有预测性:对于每个观察到的细胞,它预测其在任何条件下的基因表达,即使这种测量仅进行过一次。 此外,由于每个细胞由P维实数向量空间中的一个位置参数化,该模型还可以预测‘合成细胞’在未观察位置的表达,例如,在已观察细胞之间或在任意条件下外推。 我们利用这些能力进行差异表达分析。
Para_04
我们检测与感兴趣的比较(‘对比’)相关的细胞中一致的差异表达模式的邻域。 这些邻域以数据驱动的方式找到。 不需要事先将细胞分类为‘细胞类型’,但是,一旦确定了邻域,就可以根据相关注释对其进行注释或比较。
Para_05
我们目前的邻域查找实现还有改进的空间。 它是随机的,依赖于P维空间中点云的一维投影的随机样本。 因此,重复运行算法可能会导致(略微)不同的输出。 此外,它使用了一种相当粗暴的数据拆分方法来解决后选择推断问题。
Para_06
与一些其他的单细胞数据整合和表达预测工具不同,LEMUR 是基于线性方法构建的。 它使用少量参数进行参数化,并且只使用少量层。 这与经常被重复的观点相反,即单细胞数据的复杂性要求使用非线性方法和‘深度’模型。 我们展示了基于简单线性矩阵分解的方法,通过使用足够高维度的潜在空间,能够以有用的方式表示数据。 与深度学习方法相比,LEMUR 的可解释且易于检查的模型应该有助于剖析和后续研究其发现。 在补充说明1中,我们讨论了 LEMUR 模型与其他结合降维和回归的方法之间的区别。
Para_07
总体而言,我们认为 LEMUR 是多条件单细胞数据初步分析的一个有价值的工具。 与那些在差异表达分析前需要将细胞离散化为簇或组的方法相比,在连续潜在空间中表示细胞类型和状态可能更符合底层生物学,并可能促进受影响细胞的精确识别。 这反过来应该会减轻分析人员的工作负担,并使原本可能被忽略的生物发现成为可能。
Data availability
Para_01
所有在本研究中使用的数据集都是公开可用的:Angelidis 等人(GSE124872),Aztekin 等人(Bioconductor,https://bioconductor.org/packages/scRNAseq),Bunis 等人(Bioconductor,https://bioconductor.org/packages/scRNAseq),Goldfarbmuren 等人(GSE134174),Hrvatin 等人(GSE102827),Jäkel 等人(GSE118257),Sathyamurthy 等人(GSE103892),Kang 等人(Zenodo,https://zenodo.org/records/4473025),Bhattacherjee 等人(Zenodo,https://zenodo.org/records/4473025),Skinnider 等人(Zenodo,https://zenodo.org/records/4473025),Cano-Gamez 等人(Zenodo,https://zenodo.org/records/5048449),Cano-Gamez 等人(Zenodo,https://zenodo.org/records/5048449),Pijuan-Sala 等人(Bioconductor,https://bioconductor.org/packages/MouseGastrulationData),Zhao 等人(GSE148842),Saunders 等人(GSE202639)和 Cable 等人(SCP1663)。本文提供了源数据。 Source data are provided with this paper.
Code availability
Para_01
lemur R软件包可在https://bioconductor.org/packages/lemur获取,复现分析的代码可在https://github.com/const-ae/lemur-Paper获取,我们还使用Zenodo永久存档了该代码 https://doi.org/10.5281/zenodo.12726369。 LEMPUR模型的Python实现(不包括差分测试功能)可在https://github.com/const-ae/pylemur获取。