DRUGAI
今天为大家介绍的是来自Sarah A. Teichmann团队的一篇论文。近年来,单细胞基因组学的技术进步使得基因表达和其他模式的超大规模联合分析成为可能。因此,多组学数据集的复杂性大幅增加。目前针对多模态数据的模型通常在功能或可扩展性上存在局限性,这使得数据整合和后续分析变得困难。作者提出了multiDGD,这是一种可扩展的深度生成模型,提供了一个概率框架,用于学习转录组(transcriptome)和染色质可及性(chromatin accessibility)的表征。该模型在无需特征选择的情况下表现出卓越的数据重构性能。作者通过多个来自人类和小鼠的数据集验证了multiDGD能够很好地学习聚类的联合表征。此外,研究发现,对样本协变量的概率建模,使得后期(post-hoc)的数据整合阶段无需微调。作者还展示了multiDGD能够基于学习到的表征检测基因与调控区域之间的统计关联。multiDGD作为与scverse兼容的软件包已在GitHub上提供。
单细胞基因组学方法已经成为研究组织中细胞异质性(cellular heterogeneity)和动态变化(dynamics)的主要技术。这些方法还能够测量单个细胞内的多种分子特征,将转录组与表观基因组、蛋白质组或基因组分析相结合。这些配对的多模态测量可用于更深入地表征细胞状态、分化过程或基因型与表型之间的关系。另一种多模态数据的例子是非配对测量(unpaired measurements)。在这些测量中,各模态之间的细胞没有重叠。本文作者专注于基因表达和染色质可及性的配对测量,这个场景任务需求在生物医学领域中日益增高。
配对(paired)的单细胞多组学数据分析通常需要对多种分子测量进行联合降维,以识别细胞间的相似性、细胞状态以及基因组特征之间的协变模式(也称为垂直整合,vertical integration)。此任务下出现了几种统计模型,大多基于因子分析(factor analysis)或细胞相似性嵌入的方法。近年来,还提出了一些方法,用于整合单个模态测量的配对数据(即镶嵌整合,mosaic integration)。然而,现有方法主要应用于相对较小的数据集,而日益普及的多模态数据现在需要一个模型,这个模型要能够处理来自多个实验的数万个细胞,同时能够考虑到因样本采集技术的差异带来的样本间差异。此外,垂直整合的方法在特征空间维度不平衡的情况下表现较差,特别是在对数十万个基因组区域的基因表达和染色质可及性进行联合分析时。现有分析方法主要聚焦于用于细胞聚类的降维,对分子特征之间关系的识别关注较少。这一点在联合分析表观基因组(epigenomic)和转录组谱(transcriptomic profiles)时尤为重要,以关联调控区域与基因表达变化。
为了解决大数据集遇到的问题,生成模型已被应用于单模态数据和多模态数据的分析。深度生成模型是一种强大的机器学习技术,旨在学习数据生成的底层函数。这在单细胞数据的无监督分析中尤其重要。该领域应用的主要生成模型类型是变分自编码器(VAE)。针对scRNA-seq数据设计的模型能够以较低的计算成本整合大规模且复杂的数据集,并已成功应用于人类组织的细胞分析以及大规模队列研究。然而,这些模型也存在一些限制。例如,当前的模型设计状态下,在训练完成后,将来自不同批次的新样本整合并非易事,因为协变量是通过独热编码进行建模的。scArches是一种为解决这一问题而引入的工具,通过微调进行后处理,但并未完全解决底层问题。此外,现有模型通常采用简单的架构、生成分布的先验信息,以及对批次效应等混杂协变量的编码。这导致模型性能不足,结果不理想的原因被归因于数据中的噪声。这些生成模型的潜在应用仍未得到充分探索,因为许多模型仅关注实际特征空间的一小部分。
本文提出了一种新的生成模型multiDGD。该模型是深度生成解码器(Deep Generative Decoder, DGD)针对基因表达和染色质可及性的单细胞多组学数据的扩展。与基于VAE的模型不同,它不使用编码器来推断潜在表征,而是直接将潜在表征作为可训练参数进行学习,并采用高斯混合模型(Gaussian Mixture Model, GMM)作为潜在空间中更复杂且更强大的分布。这种设计带来了多方面的优势。
模型部分
multiDGD是一种用于转录组学和染色质可及性数据的生成模型。它由一个解码器组成,该解码器将两种模态的共享表征映射到数据空间,并学习定义潜在空间的分布。图1展示了multiDGD的示意图,包括其训练和推理过程。与scDGD相比,其新颖之处除了增加ATAC-seq模态外,还包括:1)协变量潜在模型来学习解缠表征;2)分支解码器架构;3)基因到峰值分析功能,用于提取基因和调控区域之间的学习连接。
图 1
解码器的输入是数据X的低维表征Z。这些表征不是通过编码器(如变分自编码器中的那样)生成,而是直接作为可训练参数进行学习。单细胞数据通常需要校正数据偏移,例如批次效应。此外,有时研究者可能希望单独研究某些生物学轴,例如发育阶段。为了灵活地提供这一功能,作者设计了协变量模型,该模型能够从无监督表征中解耦此类信息。因此,作者将细胞的分子表征Z_basal与技术批次效应和样本协变量Z_cov分开建模。这样,除了常规的无监督“潜在模型”(Z_basal和参数化分布Φ),还增加了一个额外的潜在模型(Z_cov和Φ_cov),称为协变量模型,并以监督方式进行训练。
潜在空间的分布选择为高斯混合模型(GMM)。这种分布对于包含亚群的数据是自然的选择,并且可以提供无监督的聚类功能。通过将GMM组件分配到协变量类别并仅优化分配组件的概率密度,实现监督学习。完整的表征Z是Z_basal和Z_cov的拼接。
数据通过将潜在表征Z入解码器生成。对于N个数据样本(细胞)中的每一个第i个样本,都存在一个对应的表征z_i。解码器由三个模块组成:共享神经网络θ_h,以及两个模态特异性神经网络θ_RNA和θ_ATAC。模态特异性网络预测每个细胞和模态的总计数的分数y_ij。这些分数随后被转换为负二项分布的预测均值(这是对于此类过度离散计数数据的一种常见且自然的选择),通过与总计数s_i相乘来建模计数。训练目标由联合概率p(X, Z, θ, Φ)定义,通过最大后验估计进行最大化。
MultiDGD与其他生成模型的性能比较
作者首先比较了在测试集(细胞)上的数据重构性能,这些测试集按照已发表注释的细胞类型进行了分层。重构(Reconstruction)性能是评估模型数据整合能力的重要指标。在所有测试数据集中,multiDGD的性能始终优于MultiVI(在人脑数据中也优于scMM)(图2A、B)。在人类骨髓数据中,对ATAC特征的重构性能提升部分得益于对高变异峰的显著性能提升。另一个对ATAC特征性能提升的贡献因素是GMM。
图 2
接下来,作者评估了multiDGD在预测和推测两种模态(RNA或ATAC)中缺失数据的性能。在现有单模态数据需要与多模态数据整合的情况下,数据模态预测是生成模型的一种自然应用。为了评估multiDGD的预测能力,作者在仅提供一种模态的情况下测试其在保留测试集上的性能。通过优化可用数据的部分似然函数实现推测。补充图5显示,从原始配对样本或人工单模态样本推断的表征能够很好地整合到潜在空间中。
为了评估multiDGD和MultiVI的推测性能,作者测量了相对于重构性能的预测性能(未知模态)损失比。尽管multiDGD的相对性能与MultiVI相似,但multiDGD表现出更大的方差(见补充表2)。然而,multiDGD对ATAC数据的绝对预测和重构性能仍然优于MultiVI(见补充表3)。
MultiDGD在少数据,特征多的数据集上有着鲁棒的性能
变分自编码器(VAEs)由于摊销(amortization)特性,在建模大数据集的速度方面展现了其实用性和优势,但这可能以后验近似的准确性为代价。无编码器的DGD天然适用于样本数量少且特征数量多的数据集,而基于自编码器的模型在此类数据中往往容易过拟合。在本研究中,作者通过对训练于人类骨髓数据子集的MultiVI和multiDGD的测试性能进行调查,简要重新审视了这一假设。为了更好地比较,作者计算了平均测试损失比,定义为模型在子集训练时的平均测试损失与在完整数据集训练时的测试损失的比值。尽管multiDGD的测试损失比方差比MultiVI高得多(图2E),但当子集大于1%时(对应仅567个细胞),multiDGD的平均损失比仍然保持稳定。而MultiVI在训练数据中的细胞数量减少时表现变差。
DGD在高特征数量数据中的这一优势同样显著。通常,在单细胞分析中,会在降维之前进行特征选择,以提高计算可扩展性和聚类性能。虽然在scRNA-seq数据集中已经存在稳健的高变异基因选择方法,但在scATAC-seq数据集中尚无可靠的特征选择统计方法。此类数据的可及性通常测量数十万个峰,许多垂直整合方法在这种特征不平衡情况下表现较差。
作者在小鼠胚胎发育数据中对multiDGD和MultiVI在两种场景下的数据重构性能进行了比较。第一种场景中,模型在经过特征选择的数据上训练(11792个基因,69862个峰);第二种场景中,模型在所有测量特征上训练(32285个基因,192251个峰)。作者仅比较了共享特征集的性能。结果显示,在两种模态上,MultiVI的性能均下降,而multiDGD在ATAC数据上的性能几乎与之前相同,并且在RNA数据上的性能甚至有所提高(图2F、G)。
multiDGD中的解耦表征缓解批次效应
生成模型在单细胞数据中的另一重要功能是缓解批次效应。在multiDGD中,可以通过将基础表征和协变量表征解耦来移除批次效应。相比于MultiVI中的独热编码,multiDGD在批次间的混合表现更好(图2D),尽管由于潜在分布的不同,平均轮廓宽度可能会有所偏差,因此需谨慎解读。在基准数据集中,作者观察到解耦的潜在空间使大多数细胞类型明显分离(图3C),并且样本处理地点之间的混合表现良好。补充图6C和6D显示,协变量模型对聚类和批次效应移除有显著的正面影响。
图 3
通过监督训练得到的批次二维独立表征(图3A)反映了总体数据分布中的趋势。这些趋势包括site4,其零RNA计数远多于其他位点,这解释了它的簇与其他簇之间较远的距离。此外,作者发现协变量表征能够捕获样本之间具有生物学意义的差异。例如,在建模小鼠胚胎发育数据集中的胚胎差异时,作者观察到高斯组件的时间相关结构(图3B)。从E7.5到E8.0的早期到中期胚胎发育阶段按时间顺序排列,E8.5和E8.75阶段则清晰分离。这种距离是合理的,因为在E8.25到E8.75阶段出现了早期器官前体的分化。
无需架构调整即可整合新批次
DGD的一个新特点是能够为之前未见过的数据找到表征。这既包括来自已知协变量的未观测细胞,也包括来自新协变量的全新数据。后者得益于对表征中“分子”成分和协变量成分的概率建模。作者通过留一法训练模型来探索对未见数据的表征和预测质量。对于人类骨髓数据中的每个批次(定义为数据处理的地点),作者在所有其他批次的训练样本上训练一个multiDGD实例,生成四个模型。然后根据相对于在所有批次上训练的模型的预测误差评估这些模型的测试性能。
图4A显示,未见批次的预测损失如预期略有增加,但总体预测性能与在所有批次上训练的模型相当(图4B),且未见批次样本很好地整合到了潜在空间中。迄今为止,整合未见协变量的常用方法包括架构调整(如scArches)。作者在相同方案下对比了应用于MultiVI的scArches。然而,由于scArches需要微调数据集,作者在保留批次的训练部分上运行scArches,以确保测试集的独立性。这自然使得MultiVI+scArches因为使用了额外的数据而具有一定优势。
图 4
对于MultiVI+scArches,与在所有批次上训练的MultiVI相比,其总体重构误差有所降低(图4B),突出了scArches微调的特性。然而,绝对性能指标仍低于multiDGD(图4C),并且潜在空间的整合效果相当,这导致事后微调(post-hoc fine-tuning)没必要进行。
建模全新的协变量
之前的结果是通过在没有协变量标签信息的情况下整合新数据(测试集)得到的。作者将这种方法称为“朴素”整合。该方法在计数建模方面对从未见过(以下简称未见)的协变量表现出良好的预测结果。然而,这种方法的局限性在于会丢失协变量之间的差异信息。来自未见协变量的新细胞将被分配到与某个已见协变量类别最接近的位置,该类别的重构损失最低。协变量的概率建模允许作者显式地包含一个新类别,而无需对解码器进行任何更改。作者将这种方法称为监督整合。除了推断新的表征外,作者还为新类别初始化了一个新的协变量GMM组件,并优化其均值和协方差,同时优化表征(图5A)。所有其他参数,包括其余协变量的GMM组件,保持不变。
图 5
作者在人类骨髓数据和小鼠胚胎发育数据上比较了未见协变量的朴素整合和监督整合。这两种数据分别代表技术协变量和生物学协变量。对于大多数新整合的协变量类别,测试重构误差与在所有协变量上训练的模型结果相当(图5B、C)。测试集的协变量表征如图5D、E所示。尽管新组件受到现有组件所覆盖区域的限制,但监督整合方法仍然能够生成有意义的表征,并实现新组件的良好整合。
编译|黄海涛
审稿|王梓旭
参考资料
Schuster, V., Dann, E., Krogh, A., & Teichmann, S. A. (2024). multiDGD: A versatile deep generative model for multi-omics data. Nature Communications, 15(1), 10031.