植物跨物种单细胞数据整合方法

健康   2024-10-12 17:01   江苏  


单细胞RNA测序(scRNA-seq)被越来越多地用于研究植物中由基因表达和细胞类型组成的物种间差异。随着大量植物scRNA-seq数据发表,植物的独特多样性使物种之间的比较评估变得重要。但是与哺乳动物不同,在哺乳动物中同源基因和结构很容易被识别,植物基因家族经常通过全基因组复制、多倍体化和串联基因复制来进行扩展,使得识别一对一的同源基因变得困难,从而阻碍了进行跨物种比较分析。

2024年6月27日美国纽约冷泉港冷泉港实验室基因组学部在《nature plants》上发表了一篇关于植物跨物种单细胞数据整合的文章(IF:15.8):Coexpression enhances cross-species integration of single-cell RNA sequencing across diverse plant species。这项研究旨在通过使用共表达来识别基因对,从而解决植物跨物种单细胞数据整合的难题。这些基因对虽然不是排他性的直系同源物,但在功能上足够相关,能够整合这些高维数据。通过减少整合的障碍,为发现对植物适应和驯化至关重要的新型细胞类型特异性创新奠定了基础。



技术方法及结果

该方法的本质是使用以前批量RNA测序数据分析来定义跨物种基因对(即,共表达代理),这些基因对可以应用于更具体但更稀疏的单细胞数据。通过利用由16000多个公开可用的RNA测序数据集构建的稳健共表达网络,以及OrthoDB v11的基因系统发育,共表达代理准确反映了它们从10,11中提取的每个物种对的潜在生物学,同时共表达数据和基因系统发育识别了扩展一对一基因空间的基因对,改善了已知细胞类型之间的数据整合和比对,并突出了物种之间的新细胞(图1-a)。通过进一步的改进整合,此方法也成功能够在它们的scRNA-seq数据中识别新的和保守的细胞类型。

图1

实例一

整合拟南芥单细胞数据集分割成两个伪“物种”

第一个“物种”是通过随机选择一半的细胞和一半的基因组产生的。对于这些细胞,基因组的后半部分被移除。然后,取出剩余的细胞,这些细胞将成为第二个“物种”,并去除第一组细胞中存在的一半基因组(图2-a)。接着,确定了两个子集基因组之间的共表达代理,找到了具有相似表达谱的基因对。例如,所选的共表达代理基因AT1G16150与靶基因AT1G1610的表达谱非常匹配。相比之下,来自同一直系同源家族的被排斥基因AT4G31100具有不同的表达谱(图2-b)。最后,使用Scanorama v1.7.113以及找到的共表达代理对拟南芥的数据集进行重新整合和重新聚类,将82%的细胞与两个数据集的细胞组合在一起(图2-c),其中75%匹配了相同细胞类型的细胞。为了评估基因代理的成功在多大程度上取决于基因系统发育的信息,以及有多少信息来自共表达保守谱,我们试图使用每个直系同源组中被拒绝最差的代理(即共表达最低的代理)整合数据集,细胞的成功匹配率降低到65%(图2-d)。为了确定单独的序列相似性是否足够,我们计算了每个拟南芥基因的成对蛋白质序列相似性,并试图用它来鉴定基因代理。虽然能够比随机表现更好,但在重新整合分割数据集方面,这一指标比共表达更差,并且完全无法重新整合某些集群。最后,我们尝试使用1900个随机基因对进行整合,发现我们无法整合(图2-e)。进一步评估我们的共表达代理,我们评估了被拒绝和选定的基因对在每个基因的基础上在细胞类型中显示相同表达的程度。发现,在不同细胞类型中,被接受的共表达代理更接近靶的表达谱,而被拒绝的代理平均距离靶的表达高83%(图2-f)。这表明,与同一正交组的其他基因相比,共表达代理在表达谱上与其靶基因更相似。此外,运用此方法在13种植物物种之间生成了共表达代理,并在物种之间平均鉴定出5750个基因对(图2-g)。


实例二

整合玉米以及水稻的单细胞数据

使用共表达代理,成功地整合了玉米和水稻数据集(主要针对四种广泛的细胞类型),将36%的细胞与两个数据集的细胞准确地整合成簇(图3-a)。其余的细胞差异很大,在不同物种中仍然表现为不同的亚群。虽然这远未达到100%,但确实存在真正的跨物种差异,因此尚不清楚最大合理的整合百分比是多少。重要的是,整合比仅使用1-1个基因对要好,后者只整合了14%的细胞(图3-b)。为了逐个细胞类型评估整合情况,使用了MetaNeighbor v3.19,量化细胞类型在统计框架中跨数据集复制的程度。比较了使用scGen的四种集成——利用共表达代理和1-1基因,仅使用共表达代理,仅使用1-1个基因和使用随机基因(图3-c)。可以看出,单独的共表达代理、单独的1-1对和组合都能准确、相似地将不同物种的细胞类型分组。虽然对于这种广泛的分类来说很微妙,但当用MetaNeighbor进行评估时,完整的共表达代理集在所有细胞类型中都比其任何一个部分集成得更好,反映了来自共表达代理的额外信息。因为这是一个专注于明确对齐的验证,所以性能通常会从高到更高。为了评估增加的已知基因对空间的效用,将共表达代理替换为随机对,并跟踪性能改进(图3-d)。对于大多数细胞类型,性能稳步提高到接近1,表明5000个共表达代理的典型数量足以整合跨物种数据。进一步查明共表达代理,发现它们通常代表核心保守功能,如光合作用、线粒体蛋白和核糖体代谢(图3-e)



结 论

整合跨物种单细胞数据是植物发育、进化和分子生物学领域越来越普遍的目标。为了促进这一过程,使用共表达代理可以扩大可用于整合的基因空间。这些代理列表为改善单细胞数据的整合提供了重要资源,加速了知识从研究良好的模式生物向对全球粮食供应至关重要的作物系统的转移。


1

END

1



上海派森诺生物科技股份有限公司成立于2011年4月,是一家致力于为生命科学、健康医学等领域提供微生物组、基因组、转录组、单细胞及蛋白代谢等多组学分子生物学技术服务及大数据挖掘与分析服务的高新技术企业,是国家级专精特新“小巨人”企业、国家知识产权优势企业、上海市“科技小巨人”企业。公司总部位于上海,设有多家全资子公司,实验及办公面积逾15,000m2

公司建立了完善的基因测序平台和大数据云计算平台,具有完全自主研发的创新技术和成果,派森诺生物及所属子公司已取得授权及受理专利、软件著作权250余项;合作项目论文多次发表在Nature、Lancet等国际生命科学、医学权威期刊,联合署名发表的SCI文章超1,500篇,累计影响因子超过10,000分。公司在全国31个省市设立了销售网点,业务网络覆盖亚洲、欧洲、大洋洲等多个国家,与全球500多所高校、300多家医院及600多家科研机构建立了紧密合作关系。

派森诺生物作为基因检测、蛋白代谢检测及大数据分析、体外诊断试剂开发的服务商,始终秉承“解析基因序列,诠释生命密码,改善人类生活”的企业使命,致力于为广大生命科学、医学工作者提供包括高通量基因测序、临床医学基因检测、蛋白及代谢组检测分析、生物信息学服务、生物云计算、分子生物学实验等科研及临床应用解决方案。


派森诺生物
生命科学研究最新进展,尽在一手掌握!
 最新文章