超过1000个工具揭示了单细胞RNA-seq分析的趋势
图1. 来自scRNA-tools网站
近年来,单细胞技术现在已经从RNA测序扩展到包括染色质可及性、DNA 甲基化、蛋白质丰度和空间位置等手段,但单细胞的应用革命主要发生在单细胞 RNA 测序 (scRNA-seq) 上。单细胞基因RNA表达相对于DNA 测序来说是细胞类型特异的,与观遗传模式相比更容易解释,并且与基于抗体的蛋白质测量不同,可扩展到数以千计的特征和数以千计的细胞。这些特点意味着 scRNA-seq 可以用作并行测量时连接其他测序数据的锚点。慕尼黑计算生物学研究所 Fabian J. Theis团队的Luke Zappia创建scRNA-tools(https://www.scrna-tools.org/)数据库,自2016年以来搜集整理了大部分scRNA-seq数据的分析软件工具(图1)。到2021年,该数据库中包含的工具数量已经超过1000个, Zappia等人同年十月发表在Genome Biology上的一篇综述”Over 1000 tools reveal trends in thesingle-cell RNA-seq analysis landscape”,提供并从数据角度分析了目前单细胞分析工具开发领域的研究状态,并探索了过去 5 年 scRNA-seq 分析的趋势。
1
如下图2,在应用的计算语言上,R语言仍然是主流的应用平台,但明显趋势是 Python 的日益流行以及R 构建的工具的比例相应减少。对这种趋势有几种可能的解释,首先,Python 的潜在内存和计算效率对scRNA-seq 数据集的大小和复杂性的增加来说非常重要。另一个,重要的工具包提供的数据存储标准,提高了包之间的互操作性和应用平台的聚集,类似于R环境下围绕SingleCellExperiment 和 Seurat 包开发软件,而 Python 环境下,围绕诸如 AnnData 和 Scanpy 等核心包进行构建的社区也能达到类似的效果,但Zappia研究员认为,其进一步发展的障碍可能是如何让开发人员专注于分析方法而不是如何存储他们的数据。
图2.scRNA-tools上工具的应用平台统计。
2
从图3A中scRNA-tools数据库对工具的分类结果可以看出,可视化、降维,聚类等常规分析流程类别是最常见的,它一直是许多工具开发的重点。还有一些常见的标准分析工具包含,多样本、多批次、多模态整合,伪时间和谱系轨迹的细胞排序,细胞质量控制,标准化,细胞状态分类,和差异表达检验等。但是从图3B中,Zappia研究员发现,随着时间的推移,有两个类别越来越受到关注:integration 和classification,这个趋势侧面反应scRNA-seq数据集的规模、复杂性的增加。早期的 scRNA-seq 实验通常由来自单个实验室的单个或几个样本组成,但是现在经常用到具有多个重复、条件和来源(多中心)的实验数据。因此,如何在批次效应处理过程中平衡消除技术影响和保留生物变异是一个非常具有挑战性的工作,共有超过140种类似的工具。另外,单细胞的分类工具通常基于公共参考数据判断细胞的类别,这一方式很依赖于参考数据的可靠程度,而高质量的参考数据通常以来高质量的数据整合,因此这两类方法经常互相依赖。但是细胞排序功能的工具随着时间推移下降的最厉害,这一功能涉及发育和细胞进化过程,目前不知道什么原因。另外,对出版文献摘要的关键字统计结果也和以上结果互相印证,其中,机器学习关键字“deep”“learning”等字眼也变得越来越普遍。
图3.A显示数据库中分配给每个分析类别的工具的比例;B.工具分析类别随时间变化趋势的散点图.
1
scRNA-tools 数据库中的绝大多数工具(超过 90%)都出现在社交编码网站 GitHub 上。在 GitHub 上可用允许社区提出问题、提出问题、提出改进建议和贡献功能。在 scRNA-tools 数据库中,有来自 734 个所有者的 991 个关联的 GitHub 存储库。在这些存储库中,超过 1800 名贡献者提交了超过 165,000 次提交,提出29,000 多个问题。
在与 scRNA 工具数据库中的工具相关的773 篇出版物中,大约 60% 之前有预印本。软件发布的平均延迟时间约为 250 天,最多 1500 天。 scRNA-seq 社区中的软件开发者通常愿意在预印本中分享他们的工作并在 GitHub 上编写代码,这是对该领域快速发展的重要贡献。如果没有及早分享想法,用户将等待一年才能使用发布的工具。
图 4 显示了预测文献指标的对数线性模型的系数。引用次数的最大预测指标是自出版以来的年数。出版物是否有相关的预印本也是一个显著的正预测因子。预印本既有助于社区又会导致更多引用,应该会鼓励更多研究人员以这种方式分享他们的工作。
图4. 预测总引用数,总AAS,和GitHub stars的对数线性模型的系数。
虽然看到单细胞工具领域的发展令人兴奋,但Zappia标示了他对工具数量的持续增加的一些担忧,研究者们仍然需要新工具,但有可能开始重复已有的工作和方法。他建议通过在scRNA-tools 数据库上提供工具目录,更轻松地找到并了解当前的分析工具。另外Zappia认为未来同样重要的是持续的、高质量的对工具性能严格的基准评估,希望将这些信息包含在数据库的未来版本中。