论文题目:
Deep learning-based models for preimplantation mouse and human embryos based on single-cell RNA sequencing
今天给大家介绍一篇发表在nature methods上的文章。随着单细胞转录组测序技术的快速发展,已产生了大量胚胎发育和体外多能干细胞模型的数据集。这些关于多能性和谱系特化过程的数据激增使得在体内定义特定细胞类型或状态,并将其与体外分化进行比较变得越来越困难。文章的作者利用一系列深度学习工具来整合和分类多个数据集。然后,定义小鼠和人类胚胎细胞类型、谱系和状态,从而最大限度地利用这些宝贵的实验资源中获得的信息。作者采用的方法侧重于难以获取和处理的早期小鼠和人类发育材料。使用这些阶段的公开数据,作者测试了不同的深度学习方法,开发了一个模型,可以无偏地对细胞类型进行分类,同时定义模型用于识别谱系、细胞类型和状态的基因集。最后,作者使用在体内发育训练的模型对小鼠和人类发育的多能干细胞模型进行分类,展示了这个资源作为早期胚胎发生动态参考的重要性。总之,这是一个利用深度学习整合和分析早期胚胎发育单细胞转录组数据的研究,旨在建立小鼠和人类的参考模型,为理解胚胎发育和干细胞分化提供工具。随着单细胞测序技术的快速发展,已经积累了大量关于哺乳动物早期胚胎发育的数据。这些数据记录了从受精卵到着床前胚胎的关键发育过程:受精形成全能合子后,小鼠在2细胞期、人类在8细胞期开始激活自身基因组;随后在16细胞的桑椹胚阶段发生第一次谱系分离,形成滋养外胚层和内细胞团;接着是第二次谱系分离,产生表皮和原始内胚层。理解这些早期发育过程对发育生物学和再生医学具有重要意义。然而,当前研究面临着几个关键挑战:首先,爆炸性增长的数据量反而使得准确定义特定细胞类型和状态变得更加困难;其次,不同实验平台产生的数据存在技术差异,需要整合才能充分利用;最重要的是,由于伦理等原因,人类胚胎材料极其稀少珍贵,每个样本都承载着重要信息,必须最大化其研究价值。针对这些挑战,作者开发了一套基于深度学习的分析工具。这套工具不仅能够整合来自不同平台的数据,还能无偏地对细胞类型进行分类,并清晰解释模型的决策依据。其重要性体现在多个层面:在方法学上,提供了处理复杂生物数据的新思路;在生物学上,加深了对早期胚胎发育的理解;在应用层面,为评估干细胞分化模型提供了可靠的参考标准。特别值得一提的是,该研究特别关注难以获取的早期发育样本,通过整合现有数据建立参考模型,不仅最大化了稀有样本的研究价值,也为后续研究提供了宝贵的分析工具。这项工作为理解人类早期发育这一根本科学问题铺设了道路,也为干细胞研究和再生医学的发展提供了重要支持。
论文展示了一个使用深度学习方法来整合和分析早期胚胎发育单细胞转录组数据的完整框架。数据集方面, 作者首先获取并预处理了来自不同实验室的scRNA-seq数据,包括13个小鼠和6个人类的早期胚胎发育scRNA-seq数据集,采用nf-core pipeline进行原始数据下载和定量,使用STARsolo进行基因表达量定量,分别基于GRCm38和GRCh38参考基因组。对于小鼠和人类数据集,他们采用了不同的预处理策略:小鼠数据集过滤掉了核糖体、细胞周期和线粒体基因,并要求每个细胞至少表达20000个基因;人类数据集则将8细胞之前的细胞重新标注以增强分类效果。图1. 用于构建参考模型的数据集总结。a) 小鼠和人类着床前发育的示意图概述。b) 用于构建小鼠(灰色)和人类(黑色)参考数据的每个发表文献的细胞数量统计。c) 用于构建和解释参考模型的计算工具示意图。d) 小鼠(上)和人类(下)着床前发育每个发育阶段的典型标记基因的表达情况。e) 小鼠(左)和人类(右)着床前数据集的降维表示
在深度学习模型架构方面,作者使用了以下模型进行数据整合和细胞类型分类,包括scVI (single-cell Variational Inference)用于数据集整合、scANVI用于细胞类型分类、scGEN用于轨迹分析、XGBoost作为基准分类器。其中scANVI表现最好,它在scVI的基础上加入了细胞类型标签来优化潜在空间。为了解决数据不平衡问题,研究者在训练过程中对每种细胞类型采样相同数量的细胞,这显著提高了分类准确性。特别地,作者开发了一个新的工具scANVIExplainer来解释深度学习模型的决策过程。这个工具基于SHAP(SHapley Additive exPlanations)算法,通过分析每个基因对细胞类型预测的贡献来提供模型可解释性。他们发现模型不仅使用了已知的标志基因(如TE的Gata3、PrE的Sox17),还发现了新的标记基因。在实际应用中,他们的模型成功地对各种体外实验系统进行了分类,包括小鼠PrE分化、人类囊胚样体(blastoids)和8细胞样细胞(8CLCs)。模型不仅能够准确预测细胞类型,还能评估预测的可信度。这种综合方法为研究胚胎发育和干细胞分化提供了一个强大的计算工具。
作者比较了多种分类方法,包括基于梯度提升决策树的XGBoost和基于深度学习的scANVI。在小鼠数据集中,XGBoost展现出较高的分类准确性(平衡准确率0.96),但scANVI在平衡每种细胞类型的训练样本(每类使用15个细胞)后,其性能显著提升(准确率从0.64提升至0.87)。特别值得注意的是E3.5-ICM(内细胞团)的分类难度。这些细胞表现出较高的异质性,反映了它们作为EPI(原始外胚层)和PrE(原始内胚层)前体的过渡特性。这种复杂性导致E3.5-ICM细胞的预测准确率仅为46%,突显了发育过程中细胞状态动态变化的挑战。在人类胚胎数据分析中,作者采用了经过优化的scANVI模型。该模型不仅能够准确分类已知细胞类型,还成功对先前未注释的细胞进行了分类。特别是,模型发现一些原本标注为ICM的细胞实际表达TE(滋养外胚层)标记物GATA3,而缺乏ICM标记物SOX2和NANOG的表达。这种重新注释揭示了早期人类胚胎发育中可能存在的细胞命运的灵活性。最后,研究者通过系统地移除高变异基因(HVGs)来测试分类器的稳健性。结果表明,scANVI比XGBoost表现出更强的鲁棒性:即使在移除200个顶级HVGs后仍能保持较高的分类准确率,而XGBoost在仅移除10个HVGs时就出现显著性能下降。这表明深度学习方法可能更适合捕捉细胞类型分类所需的复杂特征组合。图2. 细胞类型分类。a) 展示了三种不同小鼠分类器的预测准确性:XGBoost(左)、scANVI(中)和带有细胞类型子采样的scANVI (scANVI (n = 15), 右)。(x轴为预测值,y轴为观察值)。色标代表每个单独细胞类型的预测分数。b) 更仔细地检查scANVI (n = 15)如何预测注释为E3.5-ICM的细胞。c) 子采样的scANVI分类器(scANVI (n = 15), 左)对人类参考数据的准确性,包括对先前未注释细胞的重新注释(右)。d) 在已知发育时间点采样的细胞的分类器注释。e) FA图(左)和UMAP降维(中和右)显示了原本注释为ICM但被预测为TE的细胞。f) ICM和ICM衍生物亚群中GATA3、SOX17和POU5F1的表达。g) 删除顶部离散HVGs对XGBoost和子集scANVI分类器分类性能的影响。本研究的一个重要创新是开发了scANVIExplainer工具来解释神经网络的"黑箱"决策过程。深度学习模型往往难以解释其做出特定分类决策的原因,而理解这些决策依据对生物学研究至关重要。
研究者通过修改DeepExplainer工具,开发了适用于scANVI架构的scANVIExplainer。该工具试图为每个特征(基因)在预测细胞类型时赋予权重(正面或负面贡献)。具体流程是:首先将输入数据按90:10比例分为训练集和背景集,用于估计SHAP值的近似条件期望。使用这些背景估计,根据测试特征与背景之间的加权差异为每个特征分配重要性值。为确保特征集的稳健性,scANVIExplainer执行10次引导运行,只保留在所有迭代中都具有正权重的特征。
研究发现,在小鼠和人类中,分类器都使用了经典和非经典标记基因的组合。例如在小鼠中,一些用于染色前植入谱系的著名标记物如Cdx2(TE)、Gata6(PrE)和Nanog(ICM/EPI)并未出现在顶级列表中。相反,模型使用了与早期发育相关的基因(如Omt2a、Obox8和Dppa3)以及经典标记物(如Gata3、Sox17和Spp1)的组合。
在人类模型中,8细胞期的分类依赖于先前确定的NLRP4和卵母细胞因子OOSP2。与小鼠类似,人类模型也利用了传统标记物,如PrE的PDGFRA、EPI的NODAL和GDF3,以及TE的KRT18、CGF和PGF。
这些发现表明,虽然实验发育生物学已经确定了一些关键标记物,但使用单细胞转录组进行细胞类型鉴定可能以一种无偏的方式更好地定义细胞类型,其中标准可能不是谱系中的生物学功能,而是基于标记物最佳组合的细胞类型身份的无偏分配。图3. 提取用于scANVIExplainer的关键预测特征。a) scANVIExplainer的工作原理示意图。简而言之,对每个细胞类型,将细胞随机分为90:10(训练/测试)子集,以确定其各自细胞类型中每个单独特征的重要性。这个过程使用不断变化的细胞群体进行10次引导重复,只有在每次引导中都出现的特征才被视为标识符。b,c) 对小鼠(b)和人类(c)分类器中每个细胞类型确定的三个顶级预测因子进行差异表达分析(一对全部)。热图显示细胞类型与所有其他细胞类型相比的log2(fold change)。每个热图顶部给出了垂直细胞类型识别的图例。
图4. 分类体外数据集。a) 在HHex/Sox2双报告基因ES细胞中小鼠体外PrE分化过程中产生的细胞类型的预测。b) 在人类干细胞基于胚泡样结构发育模型中产生的细胞类型的预测。c) 左图:与报告基因表达相比较的小鼠ES细胞PrE分化中预测的细胞类型比例。右图:与细胞表面标记物表达相比较的人类体外胚泡样结构中预测的细胞类型比例。d) 在转移到产生naive(4CL)和类4细胞(e4CL)细胞的条件下或富集类8细胞(8CLC)的人类启动态ES细胞培养物中预测的细胞类型比例变化。
在早期胚胎发育研究领域,传统的细胞类型鉴定主要依赖于形态学、功能性和在胚胎或成体器官中的位置。随着分子生物学革命的发展,鉴定方法转向了基于基因表达的历史标记物。
然而,这种依赖积累知识而非系统化和无偏方法的表型分析存在局限性。随着单细胞测序技术的发展,RNA表达谱可以更好地描述构成细胞状态的一系列基因表达特征,而不是离散的细胞类型。这促使研究者开发了这个基于深度学习的无偏分析方法。
本研究的创新点在于:
1. 首次将深度学习应用于整合早期胚胎发育的单细胞转录组数据
2. 开发了scANVIExplainer工具,可以解释神经网络的"黑盒"决策过程
3. 建立了可扩展的参考模型,能够对新的数据集进行分类
但本研究也存在一些局限性:样本量不平衡以及有限的细胞数量。尽管如此,其下游分析结果与我们的现有认知是一致的。
未来,能够进一步完善本研究:随着新数据集的纳入,模型的稳健性将进一步提升;该方法可以扩展到其他发育阶段和组织类型;在人类胚胎体外培养和干细胞衍生物模型蓬勃发展的背景下,将成为计算分析遗传和生化扰动的重要工具。
特别地,考虑到获取人类胚胎材料的困难性和伦理限制,这类计算模型的价值尤其突出。它们不仅可以最大化现有数据的利用,还能为体外模型系统的开发和验证提供重要参考。
总的来说,本研究不仅推进了对早期胚胎发育的理解,也为未来的干细胞研究和再生医学提供了重要的分析工具。随着单细胞技术和人工智能方法的不断发展,这类整合性的计算方法将在发育生物学研究中发挥越来越重要的作用。
https://www.nature.com/articles/s41592-024-02511-3