经费不够?方法来凑!类器官疾病模型研究只需一次单细胞测序

学术   2024-12-31 16:03   北京  
利用iPSC构建疾病类器官模型具有广阔的应用前景,单细胞测序技术(scRNA-seq)对于揭示类器官的异质性、不同细胞亚群间相互作用具有无可替代的作用。然而,相对传统测序(bulk RNA-seq),其花费也高很多,尤其是需要对多时间点多组别进行测序时,scRNA-seq在经济上显然是不可行的。近日,一篇Nat Commun的文章提出了一个Vireo-bulk方法,该方法联合多个bulk RNA-seq单次scRNA-seq数据即可有效的对类器官动态变化进行分析。同时,作者构建了肾脏嵌合类器官疾病模型,进行了1scRNA-seq5bulk RNA-seq,对该方法进行了验证。
一、背景
在构建类器官疾病模型时,细胞可能源于患者、健康人或一些细胞系。来源的不同会导致类器官疾病模型的批次差异,同时实验操作会进一步放大这种误差。样本多重分析,也称为多重测序,通过混合已标记的多重细胞进行单次测序,可以降低细胞共培养所引起的批次效应。

然而,当需要对多个时间进行测序时,在经济上是不可行的。在细胞分化实验中,需要研究的是中间细胞和最终细胞。在这种情况下,将scRNA-seq和bulk RNA-seq结合起来更具成本效益,例如,在多个时间点进行bulk RNA-seq以分析分化动力学,如供体比例变化和识别差异表达的基因,并对最终分化的类器官进行scRNA-seq以获得特定细胞类型的高分辨率图谱。然而,目前没有一种方法可满足该需求。

故此,作者开发了一种方法Vireo-bulk,可以有效的对bulk RNA-seq数据进行去卷积,联合scRNA-seq和bulk RNA-seq可有效的研究不同细胞的比例和个体基因表达的时序分析。最后,作者通过将该方法应用于iPSC向巨噬细胞分化和iPSC向肾脏器官样分化的研究,阐明了iPSC的异质性,揭示了WT1突变引起的肾病综合征的机制。

二、结果

1Vireo&Vireo-bulk可用于多重测序分析

Vireo是一种贝叶斯模型方法,可以对scRNA-seq多重测序文库进行有效拆分。Vireo-bulk是Vireo的一个扩展,是一种统计模型,可以准确估算多重bulk RNA-seq样品中的供体组成。简单来说,Vireo-bulk使用每个供体的基因型(如SNP)并对多重bulk RNA-seq中表达的等位基因计数和进行建模,并据此计算出每个供体的细胞比例(图1b)。

Vireo-bulk分析嵌合类器官测序数据的实验流程如下(图1a),首先将不同人的体细胞重编程为 iPSC,构建嵌合类器官,并进行bulk RNA-seq和scRNA-seq,最后联合测序结果及供者SNP(作为barcodes),通过Vireo-bulk计算多重bulk RNA-seq数据中不同供者的组成比例。图1b为计算模型Vireo-bulk示意图,通过使用表达的等位基因读数和已知的基因型,在bulk RNA-Seq中拆分混合供体数据。

1. Vireo-bulk: 通过遗传条形码拆分bulk RNA-seq测序文库

简言之,混合样品测序后,该模型通过测序reads计算等位基因频率,然后根据等位基因频率计算出不同供体的细胞比例。根据RNA-seq计算得到的等位基因频率是由细胞数和基因表达水平共同决定的,但由于SNP在整个基因组中含量丰富,不同供体的SNP可视为近似相等的,因此等位基因频率就可以反映出不同供体细胞数的比例,即reads组成能反映每个供体的细胞数量。

此外,也可以通过SNP来估计某特定基因的丰度,因为已经获得了每个供体的细胞数量,那么就可进一步计算出每个供体的某个基因表达水平,进而得到供体间差异表达基因(DEGs),该检验采用的是供体水平丰度(H0零假设模型:所有供体具有相同表达水平)或基因水平丰度(H1备择模型:供体因表达差异导致等位基因比例偏离;图1c)。与传统的DEG分析相比,这种多重设计在技术层面消除了批次效应,同时在生物学层面通过共培养减少生物学变量。

Vireo-bulk能够对scRNA-seq和bulk RNA-seq数据进行联合拆分,使得多供体细胞混合实验的多时间点分析成为可能。因此,Vireo-bulk既能通过多重测序技术最小化批次效应,也能借助这种混合测序策略实现成本效益高的时间序列实验

2、Vireo-bulk拆分bulk RNA-seq效果评估

为了评估Vireo-bulk估算供体丰度的准确性,作者对一个受癫痫症状影响的家庭的10名供体的PBMCs进行了多重scRNA-seq分析(图2a)。使用10X Genomics scRNA-seq平台总共获得7247个细胞,并通过使用标准分析方法聚类成6种主要免疫细胞类型,并用已知细胞类型标记进行注释(图2b)。作者进一步利用Vireo根据将这些单细胞拆分到对应的10个供体(图2c)。 
图2. 多重scRNA-seq数据集及其合成数据集验证了Vireo-bulk的高准确性。

随后,为评估Vireo-bulk的性能,作者将其视为伪bulk RNA-seq数据,并仅保留UMI标记的读数以实现精确的转录计数。作者发现通过Vireo-bulk估计的供体丰度与单细胞分辨率下获得的细胞数完全匹配(图2d)。在更大混样(n = 18)进行相同的分析时,也观察到类似的高一致性(图2e)。为了测试Vireo-bulk拆分的准确性是否会受到细胞类型及其组成的影响,作者通过从PBMC的scRNA-seq数据中保留或移除特定细胞类型来进一步进行综合分析。具体而言,作者首先提取了每种细胞类型的scRNA数据中的reads,并对供体混样进行了Vireo-bulk拆分,发现所有细胞类型的相关性都非常高(图2f)。在对单一细胞类型(单核细胞)分析时,也观察到类似的高性能(图2g)。此外,作者通过两个主要供体的单核细胞来检测供体之间细胞类型组成变化,相关性仍然很高(图2g)。与常规设置相比,这种极端情况导致检测性能略有下降,表明了该模型的稳健性。

此外,将测序覆盖率降低至1%时(相当于典型的bulk RNA-Seq样品),Vireo-bulk依然能保持高准确性(图2h)。此外,作者通过生成5%至40%人工模拟的双细胞来评估双细胞含量对供体丰度计算的影响。结果发现,当双细胞含量高时,基于scRNA-seq的计算明显受到影响,而基于bulk RNA-seq的计算则影响较小(图2i)。

除了在bulk RNA测序中分析不同供体比例,通过分析基因特异性SNP,相同的Vireo-bulk模型还能够应用于定量每个供体特定基因(集)的表达水平,并因此识别出供体间的差异表达基因。作者采用一种pseudo-bulk方式,通过Vireo-bulk基于SNP鉴定出了PBMC样本中的9365个基因,用以预测相关的供体丰度,并且作者采用了似然比检验来评估这些基因在不同供体间是否存在显著性差异表达。与供体比例的情况相似,在Vireo-bulk方法中,对于给定的基因(集),作者将分配给各供体的总读数作为预测值。对于作者测序的每个基因,作者不仅能够计算真实供体丰度向量与预测向量之间的JS散度(JSD),还能够执行似然比检验来确定基因水平的表达量是否显著偏离全局供体比例(图2j,k)。通常,由于更高的表达水平或存在更多SNP,总读数较高的基因会产生更准确的基因水平量化(即,更低的JSD值;图2j)。当读数超过32时,基因水平的量化是相当准确的(55.3%,5179个基因的JSD < 0.2;图2j)。有趣的是,检测供体间差异表达基因的统计功效也与覆盖某个基因的总读数呈正相关(图2k)。

3、Viero-bulk研究iPSC向巨噬细胞分化

前面通过10个PBMC混合样品的测试,验证了Viero-bulk在拆分多重测序数据、保留和移除特定细胞、高双细胞比例等情况下均具有优异的表现。接下来,作者通过iPSC诱导分化为巨噬细胞实验进一步验证Viero-bulk的性能。

首先作者从上述患有癫痫的家庭中收集了六个PBMC样本,这些样本被重编程为iPSC,并混合传代,分步诱导为巨噬细胞。整个实验依次选取了5个时间点(P2、P3、D7、D18、D28)进行测序,P2时间点进行了scRNA-seq,其它4个时间点进行了bulk-seq。

首先,通过scRNA-seq发现,供者性别和疾病状态等相关基因(如RPS4Y1、MT1G)是主要拆分标签(图3a)。

图3. Viero-bulk分析iPSC向巨噬细胞分化的动态变化

作者将P2时间点的scRNA-seq数据作为一个pseudo bulk RNA-seq数据,通过二者的比较,验证了Vireo-bulk的有效性。作者还比较了Vireo-bulk预测的基因表达水平和单细胞水平的UMI,二者具有合理的相关性(图3b)。值得注意的是,由于单个基因的SNP数量相对较少,基因水平的量化具有挑战性。作者同样证明了相比单细胞方法,Vireo-bulk在检测供体间差异表达基因方面具有相当高的一致性。对于≥32总读数的8930个基因,Vireo-bulk检测到2371个差异表达基因(FDR < 0.05),而Seurat中的单细胞方法则识别出1878个差异表达基因(FDR < 0.05)。其中有750个基因被两种方法共同检测到,表明了显著的重叠(图3c)。

应用Vireo-bulk对P3、D7、D18、D28时间点的bulk RNA-seq数据分析发现,单个细胞系比例随时间而变化(图3d),最终导致样品9、5和4在最终混样中占主导地位。

对基因表达水平分析后发现,在5个时间点有显著差异表达的基因与多能性和增殖相关。例如,多能性基因NANOG和POU5F1在iPSCs中的表达仍然很高,并且在所有供体的分化开始时就降低了。另一方面,增殖相关基因(如MKI67、TOP2A)的高表达占比也高(样品5和9)。此外,巨噬细胞标记物(CD14、CSF1R)的表达在分化的第18天和第28天升高(图3e)。该分析揭示了iPSC细胞之间固有的基因表达差异,这可能对其增殖和分化潜力产生重大影响。

4、肾脏器官样疾病模型中的混合策略

前面实验验证了Viero-bulk在iPSC分化为巨噬细胞的优异表现。然而,其在类器官疾病模型上的表现如何?为此,作者构建了肾脏嵌合类器官疾病模型,该模型由健康供体和患者供体细胞混合构建而成(图4a)。

作者选了5个时间点进行了测序,即D0、D7、D18、D25进行bulk RNA-seq, 同时D25进行scRNA-seq。

通过Vireo-bulk对bulk RNA-seq数据进行拆分后发现,在混合样本中,携带WT1突变的供体细胞的比例迅速增加,因此在分化过程中该供体渐渐占据主导地位(图4b,4c)。
图4. 肾脏嵌合类器官模型

为了进一步评估Vireo-bulk在检测DEGs中的性能,作者分别培养了患者和健康对照的iPSC,在第7天合并测序以及单独进行bulk RNA-seq(图4d)。通过Vireo-bulk分析混合样品并鉴定DEGs(图4e,f)。混合和拆分样品中WT1相关基因的表达显示出与分别测序的样品相同的变化趋势(图4d)。此外,来自分离样品(通过DESeq2)和混合样品(通过作者的Vireo-bulk)的重叠DEGs的比较表明,来自混合和拆分样品的预测DEGs是真实有效的DEGs,这表明作者的方法能够有效地捕获DEGs。在通过两种策略分析的总共7898个基因(>=32SNPs)中,通过分离bulk RNA-seq和多重bulk RNA-seq策略分别检测到2717和1457个基因为DEGs,718个基因重叠(图4e,f)。

5、嵌合肾类器官为研究遗传疾病提供了一个模型

前面主要对比分析了Vireo-bulk在D7混合培养的细胞和单独培养的细胞的有效性。在第25天,作者收集并测序了四个批次的成熟类器官,进行了bulk RNA-seq和scRNA-seq(包括一个健康对照类样本器官、一个患者样本类器官以及两个嵌合类器官),经过质量控制后共获得了30294个有效细胞的数据。汇集样本通过Vireo进行拆分,并标注了供体来源和批次信息。分析发现四个批次具有显著的批次效应(图5a),即便是在混合和独立批次中相同的供体也是如此,这进一步支持了在类器官模型中共同培养的必要性。因此,作者应用了Harmony进行计算批次校正,以便将这四个批次整合进行联合分析。此外,作者进行了聚类和手动细胞类型注释。细胞类型标记基因证实了主要的细胞亚群存在于肾脏类器官中(图5e)。而且,当比较不同类型细胞比例时,相比于同一供体来源的样本(患者样本的R=0.927,对照样本的R=0.931;图5d),同一批次的样本返回了更高的Pearson相关系数(批次1的R=0.993,批次2的R=0.995),再次表明培养批次可能会引入明显的噪音。

 图5. 成熟的嵌合类器官测序数据拆分结果揭示了WT1介导的肾脏疾病的机理
先前的研究表明,WT1突变导致足细胞分化和增殖失调,这些表型与足细胞相关的肾脏疾病相关。由于WT1的突变,相应的祖细胞可能表现出异常升高的增殖,这可能导致具有突变WT1基因表达的足细胞比例增加。在作者上面的单细胞测序结果中,来自WT1突变携带患者的足细胞和肾单位细胞的百分比显著高于健康对照(图5b,c)。

最后,作者分析了由WT1突变引起的差异表达基因,发现与健康对照相比,许多WT1相关基因在突变体中表现出差异表达(图5f),并且这些基因与肾脏疾病相关。特别是在足细胞簇中,WT1突变导致NPHS1、NPHS2和SYNPO的表达显著降低,这些蛋白维持足细胞的特定细胞结构。WT1突变也导致肾单位、肾单位祖细胞和足细胞簇中增殖相关基因TOB1和BTG2表达减少。此外,在足细胞中,WT1突变还导致足细胞分化相关基因PAX2表达增加,从而抑制足细胞成熟。此外,免疫荧光测定还显示,肾单位发育标记物SALL1/PAX8蛋白表达水平在患者肾器官样体中升高,而足细胞相关标记物WT1/NPHS1蛋白表达水平在对照肾类器官样体中升高。这些结果支持WT1突变导致患者足细胞分化和增殖异常。

总之,这些结果表明嵌合类器官结合Vireo-bulk可应用于疾病模型的研究

三、讨论

Vireo-bulk除了可应用于嵌合类器官疾病模型,也可应用于其他嵌合供体环境,例如同种异体移植。目前,短串联重复序列(STR)分析用于确定各种恶性血液病患者异基因造血干细胞移植后的嵌合体。然而,由于只有少量STR可用,灵敏度并不很高。由于供体特异性SNP数量大得多,上述方法理论上具有很高的灵敏度。同样,该方法也可以应用于各种同种异体免疫细胞疗法,以评估供体细胞数量,并评估供体-受体细胞的相互作用。

该方法也有局限性。首先,对于Vireo,供体的基因型信息对于scRNA-seq数据拆分不是必需的,但对Vireo-bulk分析bulk RNA-seq数据是必需的。即使可以从scRNA-seq或bulk RNA-seq中获得SNP编码的基因型信息,但为了在某些实验模型中获得更好的灵敏度,仍然需要基于DNA的基因型芯片或基因组测序结果来获得基因分型信息。其次,Vireo-bulk根据等位基因读数检测供体之间的差异表达基因,避免了常规bulk RNA-seq样品中对文库大小标准化的要求。然而,由于某些基因中的SNP较少,灵敏度可能会受到影响,特别是当供体数量较多时。最后,基因表达的变化是基于不同类型细胞比例间接计算而来。

参考文献:Cheng C, Wang G, Zhu Y, Wu H, Zhang L, Liu Z, Huang Y, Zhang J. Multiplexed bulk and single-cell RNA-seq hybrid enables cost-efficient disease modeling with chimeric organoids. Nat Commun. 2024 May 10;151:3946. doi: 10.1038/s41467-024-48282-5. PMID: 38729950; PMCID: PMC11087505.
更多个性化方案设计
扫码领取
适合临床医生的科研方案






最新文章汇总(持续更新ing)


最新热点方向

1、今天开心,安利一个超好发版干湿结合思路

2、掌握孟德尔随机化发20分不是梦

3、研究中草药难发SCI?

4、公开数据纯分析发7+,内容不卷赢在选题

5、人手一篇的“淋巴转移”,摇身一变50+


生信人课堂

1、临床医生科研规划

2、热点基因集预后实操课程

3、孟德尔随机与基因组

4、R语言入门


课题设计 | 生信分析 | 数字产品

概普生物 让科研丰富

生信人

专注于基因技术相关知识分享
扫码关注 获取更多





END

生信人
共同学习生物信息学知识,共同探究生物奥秘。
 最新文章