Nat. Methods | 基于单细胞RNA测序的植入前小鼠和人类胚胎深度学习模型

学术 2024-12-03 00:01 韩国

作者 | 粟俏森
编辑 | 高文佳

论文题目：

Deep learning-based models for preimplantation mouse and human embryos based on single-cell RNA sequencing

今天给大家介绍一篇发表在nature methods上的文章。随着单细胞转录组测序技术的快速发展,已产生了大量胚胎发育和体外多能干细胞模型的数据集。这些关于多能性和谱系特化过程的数据激增使得在体内定义特定细胞类型或状态,并将其与体外分化进行比较变得越来越困难。文章的作者利用一系列深度学习工具来整合和分类多个数据集。然后,定义小鼠和人类胚胎细胞类型、谱系和状态,从而最大限度地利用这些宝贵的实验资源中获得的信息。

作者采用的方法侧重于难以获取和处理的早期小鼠和人类发育材料。使用这些阶段的公开数据,作者测试了不同的深度学习方法,开发了一个模型,可以无偏地对细胞类型进行分类,同时定义模型用于识别谱系、细胞类型和状态的基因集。最后,作者使用在体内发育训练的模型对小鼠和人类发育的多能干细胞模型进行分类,展示了这个资源作为早期胚胎发生动态参考的重要性。

总之,这是一个利用深度学习整合和分析早期胚胎发育单细胞转录组数据的研究,旨在建立小鼠和人类的参考模型,为理解胚胎发育和干细胞分化提供工具。

研究背景与意义

随着单细胞测序技术的快速发展，已经积累了大量关于哺乳动物早期胚胎发育的数据。这些数据记录了从受精卵到着床前胚胎的关键发育过程：受精形成全能合子后，小鼠在2细胞期、人类在8细胞期开始激活自身基因组；随后在16细胞的桑椹胚阶段发生第一次谱系分离，形成滋养外胚层和内细胞团；接着是第二次谱系分离，产生表皮和原始内胚层。理解这些早期发育过程对发育生物学和再生医学具有重要意义。

然而，当前研究面临着几个关键挑战：首先，爆炸性增长的数据量反而使得准确定义特定细胞类型和状态变得更加困难；其次，不同实验平台产生的数据存在技术差异，需要整合才能充分利用；最重要的是，由于伦理等原因，人类胚胎材料极其稀少珍贵，每个样本都承载着重要信息，必须最大化其研究价值。

针对这些挑战，作者开发了一套基于深度学习的分析工具。这套工具不仅能够整合来自不同平台的数据，还能无偏地对细胞类型进行分类，并清晰解释模型的决策依据。其重要性体现在多个层面：在方法学上，提供了处理复杂生物数据的新思路；在生物学上，加深了对早期胚胎发育的理解；在应用层面，为评估干细胞分化模型提供了可靠的参考标准。

特别值得一提的是，该研究特别关注难以获取的早期发育样本，通过整合现有数据建立参考模型，不仅最大化了稀有样本的研究价值，也为后续研究提供了宝贵的分析工具。这项工作为理解人类早期发育这一根本科学问题铺设了道路，也为干细胞研究和再生医学的发展提供了重要支持。

模型与方法

论文展示了一个使用深度学习方法来整合和分析早期胚胎发育单细胞转录组数据的完整框架。

数据集方面, 作者首先获取并预处理了来自不同实验室的scRNA-seq数据,包括13个小鼠和6个人类的早期胚胎发育scRNA-seq数据集,采用nf-core pipeline进行原始数据下载和定量,使用STARsolo进行基因表达量定量,分别基于GRCm38和GRCh38参考基因组。

对于小鼠和人类数据集,他们采用了不同的预处理策略:小鼠数据集过滤掉了核糖体、细胞周期和线粒体基因,并要求每个细胞至少表达20000个基因;人类数据集则将8细胞之前的细胞重新标注以增强分类效果。

图1. 用于构建参考模型的数据集总结。a) 小鼠和人类着床前发育的示意图概述。b) 用于构建小鼠(灰色)和人类(黑色)参考数据的每个发表文献的细胞数量统计。c) 用于构建和解释参考模型的计算工具示意图。d) 小鼠(上)和人类(下)着床前发育每个发育阶段的典型标记基因的表达情况。e) 小鼠(左)和人类(右)着床前数据集的降维表示

在深度学习模型架构方面,作者使用了以下模型进行数据整合和细胞类型分类,包括scVI (single-cell Variational Inference)用于数据集整合、scANVI用于细胞类型分类、scGEN用于轨迹分析、XGBoost作为基准分类器。其中scANVI表现最好,它在scVI的基础上加入了细胞类型标签来优化潜在空间。为了解决数据不平衡问题,研究者在训练过程中对每种细胞类型采样相同数量的细胞,这显著提高了分类准确性。

特别地,作者开发了一个新的工具scANVIExplainer来解释深度学习模型的决策过程。这个工具基于SHAP(SHapley Additive exPlanations)算法,通过分析每个基因对细胞类型预测的贡献来提供模型可解释性。他们发现模型不仅使用了已知的标志基因(如TE的Gata3、PrE的Sox17),还发现了新的标记基因。

在实际应用中,他们的模型成功地对各种体外实验系统进行了分类,包括小鼠PrE分化、人类囊胚样体(blastoids)和8细胞样细胞(8CLCs)。模型不仅能够准确预测细胞类型,还能评估预测的可信度。这种综合方法为研究胚胎发育和干细胞分化提供了一个强大的计算工具。

实验结果与分析

作者比较了多种分类方法,包括基于梯度提升决策树的XGBoost和基于深度学习的scANVI。在小鼠数据集中,XGBoost展现出较高的分类准确性(平衡准确率0.96),但scANVI在平衡每种细胞类型的训练样本(每类使用15个细胞)后,其性能显著提升(准确率从0.64提升至0.87)。

特别值得注意的是E3.5-ICM(内细胞团)的分类难度。这些细胞表现出较高的异质性,反映了它们作为EPI(原始外胚层)和PrE(原始内胚层)前体的过渡特性。这种复杂性导致E3.5-ICM细胞的预测准确率仅为46%,突显了发育过程中细胞状态动态变化的挑战。

在人类胚胎数据分析中,作者采用了经过优化的scANVI模型。该模型不仅能够准确分类已知细胞类型,还成功对先前未注释的细胞进行了分类。特别是,模型发现一些原本标注为ICM的细胞实际表达TE(滋养外胚层)标记物GATA3,而缺乏ICM标记物SOX2和NANOG的表达。这种重新注释揭示了早期人类胚胎发育中可能存在的细胞命运的灵活性。

最后,研究者通过系统地移除高变异基因(HVGs)来测试分类器的稳健性。结果表明,scANVI比XGBoost表现出更强的鲁棒性:即使在移除200个顶级HVGs后仍能保持较高的分类准确率,而XGBoost在仅移除10个HVGs时就出现显著性能下降。这表明深度学习方法可能更适合捕捉细胞类型分类所需的复杂特征组合。

图2. 细胞类型分类。a) 展示了三种不同小鼠分类器的预测准确性：XGBoost(左)、scANVI(中)和带有细胞类型子采样的scANVI (scANVI (n = 15), 右)。(x轴为预测值,y轴为观察值)。色标代表每个单独细胞类型的预测分数。b) 更仔细地检查scANVI (n = 15)如何预测注释为E3.5-ICM的细胞。c) 子采样的scANVI分类器(scANVI (n = 15), 左)对人类参考数据的准确性,包括对先前未注释细胞的重新注释(右)。d) 在已知发育时间点采样的细胞的分类器注释。e) FA图(左)和UMAP降维(中和右)显示了原本注释为ICM但被预测为TE的细胞。f) ICM和ICM衍生物亚群中GATA3、SOX17和POU5F1的表达。g) 删除顶部离散HVGs对XGBoost和子集scANVI分类器分类性能的影响。

本研究的一个重要创新是开发了scANVIExplainer工具来解释神经网络的"黑箱"决策过程。深度学习模型往往难以解释其做出特定分类决策的原因,而理解这些决策依据对生物学研究至关重要。

研究者通过修改DeepExplainer工具,开发了适用于scANVI架构的scANVIExplainer。该工具试图为每个特征(基因)在预测细胞类型时赋予权重(正面或负面贡献)。具体流程是:首先将输入数据按90:10比例分为训练集和背景集,用于估计SHAP值的近似条件期望。使用这些背景估计,根据测试特征与背景之间的加权差异为每个特征分配重要性值。为确保特征集的稳健性,scANVIExplainer执行10次引导运行,只保留在所有迭代中都具有正权重的特征。

研究发现,在小鼠和人类中,分类器都使用了经典和非经典标记基因的组合。例如在小鼠中,一些用于染色前植入谱系的著名标记物如Cdx2(TE)、Gata6(PrE)和Nanog(ICM/EPI)并未出现在顶级列表中。相反,模型使用了与早期发育相关的基因(如Omt2a、Obox8和Dppa3)以及经典标记物(如Gata3、Sox17和Spp1)的组合。

在人类模型中,8细胞期的分类依赖于先前确定的NLRP4和卵母细胞因子OOSP2。与小鼠类似,人类模型也利用了传统标记物,如PrE的PDGFRA、EPI的NODAL和GDF3,以及TE的KRT18、CGF和PGF。

这些发现表明,虽然实验发育生物学已经确定了一些关键标记物,但使用单细胞转录组进行细胞类型鉴定可能以一种无偏的方式更好地定义细胞类型,其中标准可能不是谱系中的生物学功能,而是基于标记物最佳组合的细胞类型身份的无偏分配。

图3. 提取用于scANVIExplainer的关键预测特征。a) scANVIExplainer的工作原理示意图。简而言之,对每个细胞类型,将细胞随机分为90:10(训练/测试)子集,以确定其各自细胞类型中每个单独特征的重要性。这个过程使用不断变化的细胞群体进行10次引导重复,只有在每次引导中都出现的特征才被视为标识符。b,c) 对小鼠(b)和人类(c)分类器中每个细胞类型确定的三个顶级预测因子进行差异表达分析(一对全部)。热图显示细胞类型与所有其他细胞类型相比的log2(fold change)。每个热图顶部给出了垂直细胞类型识别的图例。

图4. 分类体外数据集。a) 在HHex/Sox2双报告基因ES细胞中小鼠体外PrE分化过程中产生的细胞类型的预测。b) 在人类干细胞基于胚泡样结构发育模型中产生的细胞类型的预测。c) 左图:与报告基因表达相比较的小鼠ES细胞PrE分化中预测的细胞类型比例。右图:与细胞表面标记物表达相比较的人类体外胚泡样结构中预测的细胞类型比例。d) 在转移到产生naive(4CL)和类4细胞(e4CL)细胞的条件下或富集类8细胞(8CLC)的人类启动态ES细胞培养物中预测的细胞类型比例变化。

研究意义与展望

在早期胚胎发育研究领域，传统的细胞类型鉴定主要依赖于形态学、功能性和在胚胎或成体器官中的位置。随着分子生物学革命的发展，鉴定方法转向了基于基因表达的历史标记物。

然而，这种依赖积累知识而非系统化和无偏方法的表型分析存在局限性。随着单细胞测序技术的发展，RNA表达谱可以更好地描述构成细胞状态的一系列基因表达特征，而不是离散的细胞类型。这促使研究者开发了这个基于深度学习的无偏分析方法。

本研究的创新点在于：

1. 首次将深度学习应用于整合早期胚胎发育的单细胞转录组数据

2. 开发了scANVIExplainer工具，可以解释神经网络的"黑盒"决策过程

3. 建立了可扩展的参考模型，能够对新的数据集进行分类

但本研究也存在一些局限性：样本量不平衡以及有限的细胞数量。尽管如此，其下游分析结果与我们的现有认知是一致的。

未来,能够进一步完善本研究:随着新数据集的纳入，模型的稳健性将进一步提升;该方法可以扩展到其他发育阶段和组织类型;在人类胚胎体外培养和干细胞衍生物模型蓬勃发展的背景下，将成为计算分析遗传和生化扰动的重要工具。

特别地，考虑到获取人类胚胎材料的困难性和伦理限制，这类计算模型的价值尤其突出。它们不仅可以最大化现有数据的利用，还能为体外模型系统的开发和验证提供重要参考。

总的来说，本研究不仅推进了对早期胚胎发育的理解，也为未来的干细胞研究和再生医学提供了重要的分析工具。随着单细胞技术和人工智能方法的不断发展，这类整合性的计算方法将在发育生物学研究中发挥越来越重要的作用。

参考文献

https://www.nature.com/articles/s41592-024-02511-3

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Nat. Methods | 基于单细胞RNA测序的植入前小鼠和人类胚胎深度学习模型

Nat. Commun. | 计算速度远远优于DFT，NewtonNet推导ab initio海森矩阵用于过渡态优化

Nat. Commun. | 整理大规模扰动谱整合图，PRNet成功预测233种疾病的药物候选物

华东师范大学联合发布中医药领域多模态大模型：数智岐黄2.0

Nat. Commun. | 利用TE位点两侧邻近读数，MATES提高TE定量准确性

Nat. Methods | SurfDock：利用表面信息的扩散生成模型实现蛋白质-配体复合物结构精准预测

Nat. Commun.｜准确性达93.7%！高度自动化临床mNGS检测可快速识别病毒性呼吸道病原体

打破专利封锁，踏出中国小核酸药物未来之路！

Nat. Commun. | 疾病相关蛋白难成药，sChemNET探究microRNA疗法

Science | 在“放松”序列空间中实现可扩展的蛋白设计

PNAS | UBC大学团队发现AlphaFold-Multimer能够准确捕捉蛋白IDR区域的相互作用

Cell | 蛋白质-蛋白质相互作用的发现及其在健康与疾病中的重要意义

Chem. Sci. | 设计蛋白-蛋白相互作用界面的深度学习模型

Nat. Commun. | ClickGen: 一种基于模块化反应和强化学习对可合成化学空间定向探索的生成式AI模型

Nat. Commun. | 将合成与筛选速度提升6倍！！浙江大学提出最新全自动高通量系统

招聘 | 德克萨斯大学西南医学中心王涛实验室生物信息学与计算生物学博士后研究员

受限原料合成目标产物，MIT Coley团队提出解决方案

Trends Pharmacol. Sci. | 利用计算科学推进PROTAC药物发展

Nat. Comput. Sci. | 前瞻性分析：牛津大学团队展望小分子药物发现的未来

Brief. Bioinform. | 基于肿瘤免疫微环境数学建模和强化学习的免疫检查点抑制剂（ICI）联合化疗决策优化

Nat. Methods | 新算法利用空间转录组数据构建肿瘤的“空间进化图谱”

Artif. Intell. Chem. | 人工智能推动化学发展的二十种方式

报告免费领取 | 热门减肥增肌靶点调研及非临床研究策略报告

Nat. Biotechnol. | 透视疾病突变：揭示蛋白质相互作用网络中的全组学级别扰动

英伟达发布BioNeMo平台，加速全球生物制药与科学产业数字化升级

Boltz-1：让生物分子交互建模更普及

Nat. Mach. Intell. | 蛋白质语言模型也能预测热稳定性？滑铁卢大学团队亲测！

从理想变为现实，从中国走向世界：国产AI药物发现软件MolProphet的成长故事

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉