技术方法及结果
该方法的本质是使用以前批量RNA测序数据分析来定义跨物种基因对(即,共表达代理),这些基因对可以应用于更具体但更稀疏的单细胞数据。通过利用由16000多个公开可用的RNA测序数据集构建的稳健共表达网络,以及OrthoDB v11的基因系统发育,共表达代理准确反映了它们从10,11中提取的每个物种对的潜在生物学,同时共表达数据和基因系统发育识别了扩展一对一基因空间的基因对,改善了已知细胞类型之间的数据整合和比对,并突出了物种之间的新细胞(图1-a)。通过进一步的改进整合,此方法也成功能够在它们的scRNA-seq数据中识别新的和保守的细胞类型。
图1
实例一
整合拟南芥单细胞数据集分割成两个伪“物种”
第一个“物种”是通过随机选择一半的细胞和一半的基因组产生的。对于这些细胞,基因组的后半部分被移除。然后,取出剩余的细胞,这些细胞将成为第二个“物种”,并去除第一组细胞中存在的一半基因组(图2-a)。接着,确定了两个子集基因组之间的共表达代理,找到了具有相似表达谱的基因对。例如,所选的共表达代理基因AT1G16150与靶基因AT1G1610的表达谱非常匹配。相比之下,来自同一直系同源家族的被排斥基因AT4G31100具有不同的表达谱(图2-b)。最后,使用Scanorama v1.7.113以及找到的共表达代理对拟南芥的数据集进行重新整合和重新聚类,将82%的细胞与两个数据集的细胞组合在一起(图2-c),其中75%匹配了相同细胞类型的细胞。为了评估基因代理的成功在多大程度上取决于基因系统发育的信息,以及有多少信息来自共表达保守谱,我们试图使用每个直系同源组中被拒绝最差的代理(即共表达最低的代理)整合数据集,细胞的成功匹配率降低到65%(图2-d)。为了确定单独的序列相似性是否足够,我们计算了每个拟南芥基因的成对蛋白质序列相似性,并试图用它来鉴定基因代理。虽然能够比随机表现更好,但在重新整合分割数据集方面,这一指标比共表达更差,并且完全无法重新整合某些集群。最后,我们尝试使用1900个随机基因对进行整合,发现我们无法整合(图2-e)。进一步评估我们的共表达代理,我们评估了被拒绝和选定的基因对在每个基因的基础上在细胞类型中显示相同表达的程度。发现,在不同细胞类型中,被接受的共表达代理更接近靶的表达谱,而被拒绝的代理平均距离靶的表达高83%(图2-f)。这表明,与同一正交组的其他基因相比,共表达代理在表达谱上与其靶基因更相似。此外,运用此方法在13种植物物种之间生成了共表达代理,并在物种之间平均鉴定出5750个基因对(图2-g)。
实例二
整合玉米以及水稻的单细胞数据
使用共表达代理,成功地整合了玉米和水稻数据集(主要针对四种广泛的细胞类型),将36%的细胞与两个数据集的细胞准确地整合成簇(图3-a)。其余的细胞差异很大,在不同物种中仍然表现为不同的亚群。虽然这远未达到100%,但确实存在真正的跨物种差异,因此尚不清楚最大合理的整合百分比是多少。重要的是,整合比仅使用1-1个基因对要好,后者只整合了14%的细胞(图3-b)。为了逐个细胞类型评估整合情况,使用了MetaNeighbor v3.19,量化细胞类型在统计框架中跨数据集复制的程度。比较了使用scGen的四种集成——利用共表达代理和1-1基因,仅使用共表达代理,仅使用1-1个基因和使用随机基因(图3-c)。可以看出,单独的共表达代理、单独的1-1对和组合都能准确、相似地将不同物种的细胞类型分组。虽然对于这种广泛的分类来说很微妙,但当用MetaNeighbor进行评估时,完整的共表达代理集在所有细胞类型中都比其任何一个部分集成得更好,反映了来自共表达代理的额外信息。因为这是一个专注于明确对齐的验证,所以性能通常会从高到更高。为了评估增加的已知基因对空间的效用,将共表达代理替换为随机对,并跟踪性能改进(图3-d)。对于大多数细胞类型,性能稳步提高到接近1,表明5000个共表达代理的典型数量足以整合跨物种数据。进一步查明共表达代理,发现它们通常代表核心保守功能,如光合作用、线粒体蛋白和核糖体代谢(图3-e)
结 论
整合跨物种单细胞数据是植物发育、进化和分子生物学领域越来越普遍的目标。为了促进这一过程,使用共表达代理可以扩大可用于整合的基因空间。这些代理列表为改善单细胞数据的整合提供了重要资源,加速了知识从研究良好的模式生物向对全球粮食供应至关重要的作物系统的转移。
1
END
1